AIBase
首頁
AI資訊
AI產品庫
模型廣場
MCP服务
AI服務
算力市場
AI應用指南
TW

AI資訊

查看更多

智源研究院開源輕量級超長視頻理解模型Video-XL-2

近日,智源研究院聯合上海交通大學等機構正式發佈了一款新一代超長視頻理解模型——Video-XL-2。這一模型的推出標誌着長視頻理解技術在開源領域取得了重大突破,爲多模態大模型在長視頻內容理解方面的發展注入了新的活力。 在技術架構方面,Video-XL-2主要由視覺編碼器、動態Token合成模塊(DTS)以及大語言模型(LLM)三個核心組件構成。該模型採用SigLIP-SO400M作爲視覺編碼器,對輸入視頻進行逐幀處理,將每一幀編碼爲高維視覺特徵。隨後,DTS模塊對這些視覺特徵進行融合壓縮,並建模其時序關係,以提取更具語義的動態信息。處理後的視覺表徵通過平均池化與多層感知機(MLP)進一步映射到文本嵌入空間,實現模態對齊。最終,對齊後的視覺信息輸入至Qwen2.5-Instruct,以實現對視覺內容的理解與推理,並完成相應的下游任務。

16.4k 3 天前
智源研究院開源輕量級超長視頻理解模型Video-XL-2
AIBase
智啟未來,您的人工智能解決方案智庫
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2025AIBase
商務合作網站地圖