AIニュース

世界のAIイノベーションの瞬間をお見逃しなく

AIデイリー

毎日の3分AI業界トレンド

AIタイムライン

AI業界のマイルストーン

Alハードウェアです

すべてのAIハードウェアをリストアップします。

AIマネタイズガイド

画像コレクション

AI画像生成マネタイズ事例

ビデオコレクション

AIビデオ生成マネタイズ事例

オーディオコレクション

AIオーディオ生成マネタイズ事例

コンテンツコレクション

AIコンテンツ作成マネタイズ事例

AIチュートリアル

AIプロダクトランキング

AIウェブサイトの総訪問数ランキングを表示

AIトラフィック成長ランキング

トラフィックによる最も急速に成長しているAIウェブサイトを追跡

AIトラフィック減少ランキング

トラフィックが大幅に減少しているAIウェブサイトに焦点を当てる

AI週間ランキング

AIウェブサイトの週間訪問数ランキングを表示

AIオープンソースプロジェクトライブラリ

概要

GitHubの人気のあるAIオープンソースプロジェクトの概要

プロダクトライブラリツールナビゲーション MCP

Googleが新たな境界を突破：Gemini 2.5 Proが6時間のビデオ理解を実現、AIのビジョン能力が新时代へ

AIbase基地

公開日AIニュース · 1 分で読めます · May 12, 2025

GoogleのGemini2.5Proはビデオ理解能力がさらに向上し、このフラッグシップAIモデルは最長6時間のビデオ分析をサポートし、最大200万トークンの超大規模なコンテキストウィンドウを持っています。さらに、初めてYouTubeリンクを直接解析するAPI機能を実現しました。公式データによると、このモデルはVideoMMEベンチマークテストで84.7%の正確さを達成し、業界トップレベルの85.2%とわずかに差があります。その強力なパフォーマンスを示しています。この革命的な技術はすでにGoogle AI Studioを通じて開発者に公開されています。

Gemini2.5Proはその巨大なコンテキストウィンドウのおかげで、約6時間分のビデオコンテンツを一度に処理することが可能です（毎秒1フレームでサンプリングし、各フレームに66トークンを使用して計算します）。開発者は今、シンプルなAPIコールを介してYouTubeリンクを直接入力でき、モデルが自動的にビデオ内容を理解し、分析し、変換します。Google Cloud Next '25のオープニングビデオでは、このモデルが16種類の異なる製品プレゼンテーションクリップを識別し、音声と映像の手がかりを正確に組み合わせてコンテンツを特定し、深い理解力を示しました。

さらに驚くべきはその瞬間的な位置特定と時間軸横断的な分析能力です。Gemini2.5Proはユーザーのプロンプトに基づいてビデオ内の重要な瞬間を迅速に特定できます。たとえば、連続したビデオ内で主人公が携帯電話を使う17回の独立した出来事を正確に数え上げることも可能です。その論理判断能力は複雑な時間的推論タスクにも対応しており、ビデオ内の出来事の発生順序や頻度を分析します。技術的には、Googleが採用した3D-JEPAとマルチモーダル統合技術により、音声と映像情報、コードデータを組み合わせることで、モデルのビデオ理解の深さと正確さが大幅に向上しました。

適用シーンにおいて、Gemini2.5Proは教育、クリエイティブ産業、ビジネス分析など多くの分野で革新的な可能性をもたらしています。教育分野では、モデルが学習ビデオからインタラクティブな学習アプリケーションを自動生成し、学生の参加度を大幅に向上させます。クリエイティブ産業では、動画コンテンツをp5.jsアニメーションやインタラクティブなビジュアライゼーションに変換し、クリエイターにとって効率的なツールを提供します。ビジネス分析では、モデルが会議や製品プレゼンテーションビデオを解析し、重要な情報を自動抽出して専門的なレポートを作成します。

注目すべき点として、Googleは長時間のビデオ処理コストを削減するために低解像度処理モード（各フレームに66トークンのみを使用）を提供しています。公式テストによれば、この経済的なモードではVideoMMEテストでのパフォーマンスがわずか0.5%低下しており、コストとパフォーマンスのバランスが優れています。これにより、開発者が実際の応用の中でより多くの選択肢を持つことが可能です。

Gemini2.5Proのビデオ理解の革新は、AIが言語中心からビデオ駆動型のマルチモーダル製品への移行を示しています。その200万トークンのコンテキストウィンドウとYouTubeリンク解析機能は、開発者に前例のない創造の空間を与えています。特に教育、エンターテインメント、企業分析などの高価値分野で。しかし、業界の専門家は、超長時間のビデオ処理時の遅延改善にはまだ改善の余地があると指摘しています。Googleは上下文ウィンドウの拡張とリアルタイムストリーミング処理など、さらなるマルチモーダル機能の統合を計画しており、ますます増える市場ニーズに対応し、AIの視覚能力の発展を引き続きリードしていきます。

この記事はAIbaseデイリーからのものです

【AIデイリー】へようこそ！ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。

—— AIbase デイリーグループによって作成

AIニュース

AIデイリー

AIタイムライン

Alハードウェアです

最新事例

画像コレクション

ビデオコレクション

オーディオコレクション

コンテンツコレクション

最新チュートリアル

AIプロダクトランキング

AIトラフィック成長ランキング

AIトラフィック減少ランキング

AI週間ランキング

アメリカ合衆国

中国

インド

ブラジル

画像生成

パーソナルアシスタント

キャラクター生成

ビデオ生成

AIプロジェクトランキング

AIプロジェクト成長ランキング

AI開発者ランキング

AI組織ランキング

Deepseek

TTS

LLM

ChatGPT

概要

Googleが新たな境界を突破：Gemini 2.5 Proが6時間のビデオ理解を実現、AIのビジョン能力が新时代へ

AIbase基地

この記事はAIbaseデイリーからのものです