Metaがオープンソース化した長尺ビデオ向けLLMプロジェクトLongVU:重複フレームをフィルタリングし、長尺ビデオの内容を効率的かつ正確に理解
Meta AIチームは最近、長尺ビデオの言語理解能力を向上させることを目的とした、革新的な時空間適応圧縮機構であるLongVUを発表しました。従来のマルチモーダル大規模言語モデル(MLLM)は、長尺ビデオ処理においてコンテキスト長の制限に直面していましたが、LongVUはこの問題を解決するために開発されました。LongVUは、重複フレームのフィルタリングやフレーム間のトークン圧縮などの手法を通じてコンテキスト長を効率的に使用し、ビデオの視覚的な詳細を維持しながらビデオのサイズを削減します。