AIBase
首页
AI资讯
AI产品库
模型广场
MCP服务
AI服务
算力市场
AI应用指南
ZH

AI资讯

查看更多

视频理解新突破!谷歌推通用视频模型VideoPrism 精准分类、定位、检索一网打尽!

文章介绍了一款名为VideoPrism的视频编码器,由谷歌研究团队开发。这款模型可在多种视频理解任务中运用单一模型实现先进性能,包括视频分类、定位和生成字幕,甚至回答视频相关问题。训练方法涉及三个阶段:展示多样视频、使用高质量视频-字幕对和带有噪声的平行文本训练模型。训练数据量庞大规模,包括3600万高质量数据、5820百万个数据对。VideoPrism基于标准视觉变换器(ViT)进行空间和时间上因子化设计,并通过预训练方法进行针对性训练。该模型在多项视频理解任务上展现出优越性能,达到业界先进水平。虽然带来了视频理解领域的革新潜力,但在处理长视频和避免偏见方面仍面临挑战,需进一步研究解决。

18.1k 3 天前
视频理解新突破!谷歌推通用视频模型VideoPrism 精准分类、定位、检索一网打尽!

AI产品

查看更多
VideoPrism

VideoPrism

视频理解基础模型

AI视频生成
13k
AIBase
智启未来,您的人工智能解决方案智库
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2025AIBase
商务合作网站地图