Meta開源長視頻LLM項目LongVU:可過濾重複幀 高效精準理解長視頻內容
最近,Meta AI 團隊帶來了 LongVU,這是一種新穎的時空自適應壓縮機制,旨在提升長視頻的語言理解能力。傳統的多模態大型語言模型(MLLMs)在處理長視頻時面臨着上下文長度的限制,而 LongVU 正是爲了解決這一難題而誕生。LongVU 的工作原理主要通過過濾重複幀、跨幀token壓縮等方法來高效使用上下文長度,能夠在保持視頻視覺細節的同時減少視頻中的冗餘信息。具體來說,團隊使用 DINOv2的特徵來剔除那些高度相似的冗餘幀。接着,通過文本引導的跨模態查詢,實現了選擇性地減少幀特徵