最好的LongVU AI工具模型_精选LongVU资讯

AI资讯

Meta开源长视频LLM项目LongVU：可过滤重复帧高效精准理解长视频内容

最近，Meta AI 团队带来了 LongVU，这是一种新颖的时空自适应压缩机制，旨在提升长视频的语言理解能力。传统的多模态大型语言模型（MLLMs）在处理长视频时面临着上下文长度的限制，而 LongVU 正是为了解决这一难题而诞生。LongVU 的工作原理主要通过过滤重复帧、跨帧token压缩等方法来高效使用上下文长度，能够在保持视频视觉细节的同时减少视频中的冗余信息。具体来说，团队使用 DINOv2的特征来剔除那些高度相似的冗余帧。接着，通过文本引导的跨模态查询，实现了选择性地减少帧特征

20k 1 天前