動画理解の新突破!Googleが汎用動画モデルVideoPrismを発表 正確な分類、位置特定、検索を網羅!
この記事では、Googleの研究チームが開発したVideoPrismというビデオエンコーダーを紹介します。このモデルは、ビデオ分類、位置特定、字幕生成、さらにはビデオ関連の質問への回答など、複数の動画理解タスクにおいて単一モデルで高度な性能を実現します。トレーニング方法は3段階からなり、多様な動画の提示、高品質な動画と字幕のペアの使用、ノイズを含む並列テキストによるモデルのトレーニングが含まれます。トレーニングデータは3600万件の高品質データ、5820万件のデータペアを含む大規模なものです。VideoPrismは〜