Googleとその親会社AlphabetのCEOであるサンダー・ピチャイは、同社が最新のAIモデルGemini 2.0を発表したと発表しました。これは、汎用AIアシスタントの構築においてGoogleが重要な一歩を踏み出したことを意味します。Gemini 2.0は、マルチモーダル入力処理とネイティブツール使用において顕著な進歩を示し、AIエージェントが周囲の世界をより深く理解し、ユーザーの監督の下でユーザーに代わって行動することを可能にします。
Gemini 2.0は、その前身であるGemini 1.0と1.5を基に開発されました。後者は初めてネイティブなマルチモーダル処理能力を実現し、テキスト、ビデオ、画像、オーディオ、コードなど、さまざまな情報タイプを理解できます。現在、数百万人の開発者がGeminiを使用して開発を行い、Googleは7つの製品(20億人のユーザーにサービスを提供)の再考や新製品の創造を進めています。NotebookLMはそのマルチモーダルとロングコンテキスト能力の一例であり、広く人気を博しています。
Gemini 2.0の発表は、Googleが新しいエージェント時代に入ったことを示しています。このモデルは、ネイティブな画像とオーディオ出力能力、そしてネイティブツール使用能力を備えています。GoogleはすでにGemini 2.0を開発者と信頼できるテスターに提供し始めており、製品への迅速な統合を計画しています。まずGeminiと検索に統合されます。本日より、Gemini 2.0 Flash実験モデルがすべてのGeminiユーザーに公開されます。同時に、高度な推論とロングコンテキスト能力を使用して研究アシスタントとして機能し、ユーザーに代わって複雑なテーマを探求し、レポートを作成するDeep Researchという新機能も発表されました。この機能は現在、Gemini Advancedで提供されています。
AIの影響を最も大きく受ける製品の1つである検索において、GoogleのAIの概要は現在10億人にリーチし、彼らが全く新しい質問をすることを可能にし、Googleで最も人気のある検索機能の1つとなっています。次のステップとして、Googleはより複雑なテーマや複数ステップの問題(高度な数学方程式、マルチモーダルクエリ、コーディングなど)を解決するために、Gemini 2.0の高度な推論能力をAIの概要に導入します。今週から限定テストを開始し、来年初めにより広く展開する予定です。Googleはまた、今後1年間でAIの概要をより多くの国と言語に展開していく予定です。
Googleはまた、Gemini 2.0のネイティブマルチモーダル能力を通じて、そのエージェント研究の最先端の成果を示しました。Gemini 2.0 Flashは、これまでで最も人気のあるモデルの1つである1.5 Flashを改良したもので、同様の高速な応答時間を備えています。注目すべきは、2.0 Flashが主要なベンチマークテストで1.5 Proを2倍の速度で上回ったことです。2.0 Flashは新しい能力も備えています。画像、ビデオ、オーディオなどのマルチモーダル入力をサポートすることに加え、2.0 Flashは現在、テキストと混合したネイティブ生成画像や、制御可能な多言語テキスト読み上げ(TTS)オーディオなどのマルチモーダル出力をサポートしています。また、Google検索、コード実行、サードパーティのユーザー定義関数などのツールをネイティブに呼び出すこともできます。
Gemini 2.0 Flashは現在、実験モデルとして開発者に提供されています。Google AI StudioとVertex AIのGemini APIを通じて、すべての開発者がマルチモーダル入力とテキスト出力を利用できます。テキスト読み上げとネイティブ画像生成は、早期アクセスパートナーに提供されます。一般への提供は1月に開始され、より多くのモデルサイズも提供される予定です。
開発者が動的でインタラクティブなアプリケーションを構築するのを支援するために、Googleはリアルタイムのオーディオ、ビデオストリーム入力を備え、複数の組み合わせツールを使用できる新しいマルチモーダルリアルタイムAPIもリリースしました。
本日より、世界中のGeminiユーザーは、デスクトップとモバイルWeb上のモデルのドロップダウンメニューで選択することで、2.0 Flash実験のチャット最適化バージョンにアクセスできます。これはまもなくGeminiモバイルアプリでも提供される予定です。来年初頭には、GoogleはGemini 2.0をより多くのGoogle製品に展開する予定です。