AIBase
首頁
AI資訊
AI產品庫
模型廣場
MCP服务
AI服務
算力市場
AI應用指南
TW

AI資訊

查看更多

視頻理解新突破!谷歌推通用視頻模型VideoPrism 精準分類、定位、檢索一網打盡!

文章介紹了一款名爲VideoPrism的視頻編碼器,由谷歌研究團隊開發。這款模型可在多種視頻理解任務中運用單一模型實現先進性能,包括視頻分類、定位和生成字幕,甚至回答視頻相關問題。訓練方法涉及三個階段:展示多樣視頻、使用高質量視頻-字幕對和帶有噪聲的平行文本訓練模型。訓練數據量龐大規模,包括3600萬高質量數據、5820百萬個數據對。VideoPrism基於標準視覺變換器(ViT)進行空間和時間上因子化設計,並通過預訓練方法進行鍼對性訓練。該模型在多項視頻理解任務上展現出優越性能,達到業界先進水平。雖然帶來了視頻理解領域的革新潛力,但在處理長視頻和避免偏見方面仍面臨挑戰,需進一步研究解決。

18.1k 3 天前
視頻理解新突破!谷歌推通用視頻模型VideoPrism 精準分類、定位、檢索一網打盡!

AI產品

查看更多
VideoPrism

VideoPrism

視頻理解基礎模型

AI視頻生成
12.2k
AIBase
智啟未來,您的人工智能解決方案智庫
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2025AIBase
商務合作網站地圖