Google Gemini 2.0正式リリース：2.0 Flashがマルチモーダル出力をサポート

AIbase基地

公開日AIニュース · 1 分で読めます · Dec 12, 2024

287

Googleとその親会社AlphabetのCEOであるサンダー・ピチャイは、同社が最新のAIモデルGemini 2.0を発表したと発表しました。これは、汎用AIアシスタントの構築においてGoogleが重要な一歩を踏み出したことを意味します。Gemini 2.0は、マルチモーダル入力処理とネイティブツール使用において顕著な進歩を示し、AIエージェントが周囲の世界をより深く理解し、ユーザーの監督の下でユーザーに代わって行動することを可能にします。

Gemini 2.0は、その前身であるGemini 1.0と1.5を基に開発されました。後者は初めてネイティブなマルチモーダル処理能力を実現し、テキスト、ビデオ、画像、オーディオ、コードなど、さまざまな情報タイプを理解できます。現在、数百万人の開発者がGeminiを使用して開発を行い、Googleは7つの製品（20億人のユーザーにサービスを提供）の再考や新製品の創造を進めています。NotebookLMはそのマルチモーダルとロングコンテキスト能力の一例であり、広く人気を博しています。

微信截图_20241212080452.png

Gemini 2.0の発表は、Googleが新しいエージェント時代に入ったことを示しています。このモデルは、ネイティブな画像とオーディオ出力能力、そしてネイティブツール使用能力を備えています。GoogleはすでにGemini 2.0を開発者と信頼できるテスターに提供し始めており、製品への迅速な統合を計画しています。まずGeminiと検索に統合されます。本日より、Gemini 2.0 Flash実験モデルがすべてのGeminiユーザーに公開されます。同時に、高度な推論とロングコンテキスト能力を使用して研究アシスタントとして機能し、ユーザーに代わって複雑なテーマを探求し、レポートを作成するDeep Researchという新機能も発表されました。この機能は現在、Gemini Advancedで提供されています。

AIの影響を最も大きく受ける製品の1つである検索において、GoogleのAIの概要は現在10億人にリーチし、彼らが全く新しい質問をすることを可能にし、Googleで最も人気のある検索機能の1つとなっています。次のステップとして、Googleはより複雑なテーマや複数ステップの問題（高度な数学方程式、マルチモーダルクエリ、コーディングなど）を解決するために、Gemini 2.0の高度な推論能力をAIの概要に導入します。今週から限定テストを開始し、来年初めにより広く展開する予定です。Googleはまた、今後1年間でAIの概要をより多くの国と言語に展開していく予定です。

Googleはまた、Gemini 2.0のネイティブマルチモーダル能力を通じて、そのエージェント研究の最先端の成果を示しました。Gemini 2.0 Flashは、これまでで最も人気のあるモデルの1つである1.5 Flashを改良したもので、同様の高速な応答時間を備えています。注目すべきは、2.0 Flashが主要なベンチマークテストで1.5 Proを2倍の速度で上回ったことです。2.0 Flashは新しい能力も備えています。画像、ビデオ、オーディオなどのマルチモーダル入力をサポートすることに加え、2.0 Flashは現在、テキストと混合したネイティブ生成画像や、制御可能な多言語テキスト読み上げ（TTS）オーディオなどのマルチモーダル出力をサポートしています。また、Google検索、コード実行、サードパーティのユーザー定義関数などのツールをネイティブに呼び出すこともできます。

微信截图_20241212080808.png

Gemini 2.0 Flashは現在、実験モデルとして開発者に提供されています。Google AI StudioとVertex AIのGemini APIを通じて、すべての開発者がマルチモーダル入力とテキスト出力を利用できます。テキスト読み上げとネイティブ画像生成は、早期アクセスパートナーに提供されます。一般への提供は1月に開始され、より多くのモデルサイズも提供される予定です。

開発者が動的でインタラクティブなアプリケーションを構築するのを支援するために、Googleはリアルタイムのオーディオ、ビデオストリーム入力を備え、複数の組み合わせツールを使用できる新しいマルチモーダルリアルタイムAPIもリリースしました。

本日より、世界中のGeminiユーザーは、デスクトップとモバイルWeb上のモデルのドロップダウンメニューで選択することで、2.0 Flash実験のチャット最適化バージョンにアクセスできます。これはまもなくGeminiモバイルアプリでも提供される予定です。来年初頭には、GoogleはGemini 2.0をより多くのGoogle製品に展開する予定です。

グーグル NotebookLM のアップグレード：新しいパブリックノートラボでスマートなノートの体験をサポート

グーグルがAIノートアプリNotebookLMをアップグレードし、パブリックノートラボ機能を追加しました。このラボには『エコノミスト』などの権威あるコンテンツや専門家のノートが統合されています。ユーザーが質問を行い、AIによる要約を得られる機能も搭載しています。音声での概要とマインドマップの新機能も追加され、初期リソースとして長寿ガイドや旅行プランなど実用的なコンテンツが含まれます。現在、プラットフォームでは14万以上のユーザーのノートが蓄積されており、AI技術により知識管理の効率を向上させ、情報共有のエコシステムを強化しています。

黄仁勲がブロックチェーン博覧会に登場：AIはグローバルなインフラとなる。中国の開発者が重要な役割を果たす

NVIDIA CEO 黄仁勲氏は中国国際チェーン博覧会で講演し、3DゲームからAI計算への転換を振り返った。中国開発者が150万以上のプロジェクトを創出し、AIが産業を再構築すると強調。中国のオープンソースAIが世界の技術進歩に重要と指摘。Omniverseプラットフォームが中国サプライチェーンのデジタル化を支援、AIが今後10年の産業革命を牽引すると予測。....

マイクロソフト Copilot Vision AI のアップグレード：スクリーンを一目で把握

Windows Insiders向けにCopilot Visionを更新。AIがデスクトップ全体や指定ウィンドウを認識可能に。メガネアイコンで起動し、画面分析とアドバイスを提供。履歴書改善、ゲーム攻略、スマホカメラでの現実世界QAにも対応。Edgeでのテスト成果を発展させたAI体験の革新。....

元OpenAICTOミラ・マラティの新しい会社が20億ドルの資金調達を完了し、マルチモーダルAIの研究開発を推進

OpenAI元CTOのMira Murati氏が設立したThinking Machines Labが20億ドルのシード資金を調達、評価額120億ドルでAI分野の初期資金調達記録を更新。サンフランシスコ拠点の同社は公共益AI開発を掲げ、マルチモーダルAIシステムの研究を推進。OpenAIやMeta出身の精鋭を集め、オープンソース要素を含む初製品を計画。人間の価値観に沿った透明なAI構築を目指す。....

バイチューテックのSeedが最新の強化学習アルゴリズムPOLARISをオープンソース化 4Bモデルの数学推論能力が235Bと同等に

最近、バイチューテックのSeedチームは香港大学および復旦大学と協力して、革新的な強化学習トレーニング方法であるPOLARISを発表しました。この方法は丁寧に設計されたScaling RL戦略により、小規模モデルの数学推論能力を超大規模モデルと同等の水準まで向上させることに成功し、人工知能分野における小規模モデルの最適化に新たな道を開きました。実験結果によると、POLARISでトレーニングされた40億パラメータのオープンソースモデルQwen3-4Bは、AIME25およびAIME24の数学テストにおいてそれぞれ