GoogleのGemini2.5Proはビデオ理解能力がさらに向上し、このフラッグシップAIモデルは最長6時間のビデオ分析をサポートし、最大200万トークンの超大規模なコンテキストウィンドウを持っています。さらに、初めてYouTubeリンクを直接解析するAPI機能を実現しました。公式データによると、このモデルはVideoMMEベンチマークテストで84.7%の正確さを達成し、業界トップレベルの85.2%とわずかに差があります。その強力なパフォーマンスを示しています。この革命的な技術はすでにGoogle AI Studioを通じて開発者に公開されています。
Gemini2.5Proはその巨大なコンテキストウィンドウのおかげで、約6時間分のビデオコンテンツを一度に処理することが可能です(毎秒1フレームでサンプリングし、各フレームに66トークンを使用して計算します)。開発者は今、シンプルなAPIコールを介してYouTubeリンクを直接入力でき、モデルが自動的にビデオ内容を理解し、分析し、変換します。Google Cloud Next '25のオープニングビデオでは、このモデルが16種類の異なる製品プレゼンテーションクリップを識別し、音声と映像の手がかりを正確に組み合わせてコンテンツを特定し、深い理解力を示しました。
さらに驚くべきはその瞬間的な位置特定と時間軸横断的な分析能力です。Gemini2.5Proはユーザーのプロンプトに基づいてビデオ内の重要な瞬間を迅速に特定できます。たとえば、連続したビデオ内で主人公が携帯電話を使う17回の独立した出来事を正確に数え上げることも可能です。その論理判断能力は複雑な時間的推論タスクにも対応しており、ビデオ内の出来事の発生順序や頻度を分析します。技術的には、Googleが採用した3D-JEPAとマルチモーダル統合技術により、音声と映像情報、コードデータを組み合わせることで、モデルのビデオ理解の深さと正確さが大幅に向上しました。
適用シーンにおいて、Gemini2.5Proは教育、クリエイティブ産業、ビジネス分析など多くの分野で革新的な可能性をもたらしています。教育分野では、モデルが学習ビデオからインタラクティブな学習アプリケーションを自動生成し、学生の参加度を大幅に向上させます。クリエイティブ産業では、動画コンテンツをp5.jsアニメーションやインタラクティブなビジュアライゼーションに変換し、クリエイターにとって効率的なツールを提供します。ビジネス分析では、モデルが会議や製品プレゼンテーションビデオを解析し、重要な情報を自動抽出して専門的なレポートを作成します。
注目すべき点として、Googleは長時間のビデオ処理コストを削減するために低解像度処理モード(各フレームに66トークンのみを使用)を提供しています。公式テストによれば、この経済的なモードではVideoMMEテストでのパフォーマンスがわずか0.5%低下しており、コストとパフォーマンスのバランスが優れています。これにより、開発者が実際の応用の中でより多くの選択肢を持つことが可能です。
Gemini2.5Proのビデオ理解の革新は、AIが言語中心からビデオ駆動型のマルチモーダル製品への移行を示しています。その200万トークンのコンテキストウィンドウとYouTubeリンク解析機能は、開発者に前例のない創造の空間を与えています。特に教育、エンターテインメント、企業分析などの高価値分野で。しかし、業界の専門家は、超長時間のビデオ処理時の遅延改善にはまだ改善の余地があると指摘しています。Googleは上下文ウィンドウの拡張とリアルタイムストリーミング処理など、さらなるマルチモーダル機能の統合を計画しており、ますます増える市場ニーズに対応し、AIの視覚能力の発展を引き続きリードしていきます。