視頻理解新突破!谷歌推通用視頻模型VideoPrism 精準分類、定位、檢索一網打盡!
文章介紹了一款名爲VideoPrism的視頻編碼器,由谷歌研究團隊開發。這款模型可在多種視頻理解任務中運用單一模型實現先進性能,包括視頻分類、定位和生成字幕,甚至回答視頻相關問題。訓練方法涉及三個階段:展示多樣視頻、使用高質量視頻-字幕對和帶有噪聲的平行文本訓練模型。訓練數據量龐大規模,包括3600萬高質量數據、5820百萬個數據對。VideoPrism基於標準視覺變換器(ViT)進行空間和時間上因子化設計,並通過預訓練方法進行鍼對性訓練。該模型在多項視頻理解任務上展現出優越性能,達到業界先進水平。雖然帶來了視頻理解領域的革新潛力,但在處理長視頻和避免偏見方面仍面臨挑戰,需進一步研究解決。