智源研究院開源輕量級超長視頻理解模型Video-XL-2
近日,智源研究院聯合上海交通大學等機構正式發佈了一款新一代超長視頻理解模型——Video-XL-2。這一模型的推出標誌着長視頻理解技術在開源領域取得了重大突破,爲多模態大模型在長視頻內容理解方面的發展注入了新的活力。
在技術架構方面,Video-XL-2主要由視覺編碼器、動態Token合成模塊(DTS)以及大語言模型(LLM)三個核心組件構成。該模型採用SigLIP-SO400M作爲視覺編碼器,對輸入視頻進行逐幀處理,將每一幀編碼爲高維視覺特徵。隨後,DTS模塊對這些視覺特徵進行融合壓縮,並建模其時序關係,以提取更具語義的動態信息。處理後的視覺表徵通過平均池化與多層感知機(MLP)進一步映射到文本嵌入空間,實現模態對齊。最終,對齊後的視覺信息輸入至Qwen2.5-Instruct,以實現對視覺內容的理解與推理,並完成相應的下游任務。