AIBase
首頁
AI資訊
AI產品庫
模型廣場
MCP服务
AI服務
算力市場
AI應用指南
數據集市
TW

AI資訊

查看更多

Meta開源長視頻LLM項目LongVU:可過濾重複幀 高效精準理解長視頻內容

最近,Meta AI 團隊帶來了 LongVU,這是一種新穎的時空自適應壓縮機制,旨在提升長視頻的語言理解能力。傳統的多模態大型語言模型(MLLMs)在處理長視頻時面臨着上下文長度的限制,而 LongVU 正是爲了解決這一難題而誕生。LongVU 的工作原理主要通過過濾重複幀、跨幀token壓縮等方法來高效使用上下文長度,能夠在保持視頻視覺細節的同時減少視頻中的冗餘信息。具體來說,團隊使用 DINOv2的特徵來剔除那些高度相似的冗餘幀。接着,通過文本引導的跨模態查詢,實現了選擇性地減少幀特徵

18.9k 6 天前
Meta開源長視頻LLM項目LongVU:可過濾重複幀 高效精準理解長視頻內容

AI產品

查看更多
LongVU

LongVU

長視頻語言理解的時空自適應壓縮模型

模型訓練與部署
8.9k

模型

查看更多

LongVU_Llama3_2_1B

Vision-CAIR

L

LongVU 是一種面向長視頻語言理解的時空自適應壓縮技術,旨在高效處理長視頻內容,提升語言理解能力。

多模態PytorchPytorch
Vision-CAIR
465
11

LongVU_Llama3_2_3B

Vision-CAIR

L

LongVU是一種面向長視頻語言理解的時空自適應壓縮技術,旨在高效處理長視頻內容。

多模態PytorchPytorch
Vision-CAIR
1.1k
7

LongVU_Qwen2_7B

Vision-CAIR

L

LongVU是基於Qwen2-7B的多模態模型,專注於長視頻語言理解任務,採用時空自適應壓縮技術。

多模態SafetensorsSafetensors
Vision-CAIR
230
69
AIBase
智啟未來,您的人工智能解決方案智庫
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2025AIBase
商務合作網站地圖