AIBase
首页
AI资讯
AI产品库
模型广场
MCP服务
AI服务
算力市场
AI应用指南
数据集市
ZH

AI资讯

查看更多

Meta开源长视频LLM项目LongVU:可过滤重复帧 高效精准理解长视频内容

最近,Meta AI 团队带来了 LongVU,这是一种新颖的时空自适应压缩机制,旨在提升长视频的语言理解能力。传统的多模态大型语言模型(MLLMs)在处理长视频时面临着上下文长度的限制,而 LongVU 正是为了解决这一难题而诞生。LongVU 的工作原理主要通过过滤重复帧、跨帧token压缩等方法来高效使用上下文长度,能够在保持视频视觉细节的同时减少视频中的冗余信息。具体来说,团队使用 DINOv2的特征来剔除那些高度相似的冗余帧。接着,通过文本引导的跨模态查询,实现了选择性地减少帧特征

18.9k 6 天前
Meta开源长视频LLM项目LongVU:可过滤重复帧 高效精准理解长视频内容

AI产品

查看更多
LongVU

LongVU

长视频语言理解的时空自适应压缩模型

模型训练与部署
9.9k

模型

查看更多

LongVU_Llama3_2_1B

Vision-CAIR

L

LongVU 是一种面向长视频语言理解的时空自适应压缩技术,旨在高效处理长视频内容,提升语言理解能力。

多模态PytorchPytorch
Vision-CAIR
465
11

LongVU_Llama3_2_3B

Vision-CAIR

L

LongVU是一种面向长视频语言理解的时空自适应压缩技术,旨在高效处理长视频内容。

多模态PytorchPytorch
Vision-CAIR
1.1k
7

LongVU_Qwen2_7B

Vision-CAIR

L

LongVU是基于Qwen2-7B的多模态模型,专注于长视频语言理解任务,采用时空自适应压缩技术。

多模态SafetensorsSafetensors
Vision-CAIR
230
69
AIBase
智启未来,您的人工智能解决方案智库
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2025AIBase
商务合作网站地图