视频理解新突破!谷歌推通用视频模型VideoPrism 精准分类、定位、检索一网打尽!
文章介绍了一款名为VideoPrism的视频编码器,由谷歌研究团队开发。这款模型可在多种视频理解任务中运用单一模型实现先进性能,包括视频分类、定位和生成字幕,甚至回答视频相关问题。训练方法涉及三个阶段:展示多样视频、使用高质量视频-字幕对和带有噪声的平行文本训练模型。训练数据量庞大规模,包括3600万高质量数据、5820百万个数据对。VideoPrism基于标准视觉变换器(ViT)进行空间和时间上因子化设计,并通过预训练方法进行针对性训练。该模型在多项视频理解任务上展现出优越性能,达到业界先进水平。虽然带来了视频理解领域的革新潜力,但在处理长视频和避免偏见方面仍面临挑战,需进一步研究解决。