智源研究院がオープンソース化した軽量級の超長尺ビデオ理解モデル Video-XL-2
最近、智源研究院は上海交通大学など複数の機関と共同で、新一代の超長尺ビデオ理解モデルであるVideo-XL-2を正式にリリースしました。このモデルの登場により、ロングビデオ理解技術においてオープンソース分野で大きな突破を達成し、マルチモーダル大規模モデルがロングビデオコンテンツの理解分野で新たな活力をもたらしました。技術アーキテクチャ面では、Video-XL-2は主に視覚エンコーダー、ダイナミックトークン合成モジュール(DTS)、および大規模言語モデル(LLM)という3つの主要コンポーネントで構成されています。このモデルはSigを採用しています