グーグルのDeepMindは最近、ブログ記事を公開し、新しく開発したGemini Robotics On-DeviceローカライズされたロボットAIモデルを正式にリリースしました。このモデルは視覚・言語・動作(VLA)アーキテクチャを採用しており、クラウドサポートなしでも実体ロボットの正確な制御が可能です。
新しいモデルの最大の特徴は、ロボットデバイスの内部で完全に独立して動作することです。これにより、低遅延応答能力が実現され、ネットワーク接続が不安定な環境、例えば医療施設などの重要なアプリケーションに特に適しています。
操作精度に関しては、このモデルは驚くべき能力を示しており、バッグのジッパーを開ける、服を畳む、靴の紐を結ぶなどの高難度の細かい作業タスクを実行できます。システムは二本のロボットアームを採用しており、現在ALOHA、Franka FR3、およびApollo人形ロボットプラットフォームに対応しています。
グーグルは開発者向けに完全なGemini Robotics SDKツールキットを提供しており、カスタマイズのハードルを大幅に下げています。開発者は50〜100回のタスクデモだけでロボットに新たな機能をカスタマイズでき、システムはMuJoCo物理シミュレータによる事前テストもサポートしています。
セキュリティ面では、このシステムには完全な保証メカニズムが構築されています。Live APIを用いて意味的なセキュリティ検出を行い、ロボットの行動の合規性を確保する一方、下位のセキュリティコントローラーは動作の強さと速度を正確に管理し、予期せぬ被害を防ぎます。
プロジェクト責任者のCarolina Parada氏は、「このシステムはGeminiのマルチモーダルな世界理解能力を十分に活用しています。Geminiがテキスト、コード、画像を生成できるように、今や正確なロボット動作の生成も可能になりました」と述べました。
現在、このモデルは信頼できるテストプログラムに参加している開発者にのみ公開されています。注目すべきは、このモデルがGemini2.0アーキテクチャに基づいて開発されており、グーグル最新のGemini2.5バージョンに比べて技術的に若干の後れがあるということです。