最近、智譜、清華大学、北京大学は共同で、LVBenchと呼ばれる長尺動画理解ベンチマークテストプロジェクトを発表しました。既存のマルチモーダル大規模言語モデルは短尺動画の理解において目覚ましい進歩を遂げていますが、数時間の長尺動画を処理する際には依然として課題に直面しています。この空白を埋めるために、LVBenchが開発されました。
長尺動画理解ベンチマーク