Der Google-Unternehmen DeepMind hat kürzlich einen Blogbeitrag veröffentlicht und gab offiziell ein neues lokales Robotik-KI-Modell namens Gemini Robotics On-Device bekannt. Dieses Modell verwendet eine visuelle Sprache-Aktion (VLA)-Architektur und ermöglicht es physischen Robotern, präzise gesteuert zu werden, ohne auf Cloud-Unterstützung angewiesen zu sein.
Der größte Vorteil dieses neuen Modells besteht darin, dass es vollständig lokal auf dem Robotergerät läuft und eine niedrige Latenzantwortfähigkeit bietet. Diese Eigenschaft macht es besonders geeignet für Umgebungen mit instabiler Netzwerkverbindung, wie beispielsweise medizinische Einrichtungen, die kritische Anwendungen erfordern.
Was die Betriebsgenauigkeit angeht, zeigt dieses Modell beeindruckende Fähigkeiten, wie das Öffnen von Reißverschlüssen, das Falten von Kleidung und das Binden von Schuhen. Das System verfügt über eine Doppelarm-Design, und es ist bereits mit den Plattformen ALOHA, Franka FR3 und Apollo humanoiden Robotern kompatibel.
Google bietet Entwicklern ein vollständiges Gemini Robotics SDK-Tool-Kit an, das die Anpassungshürde stark verringert. Entwickler benötigen nur 50 bis 100 Aufgaben-Demonstrationen, um neue Funktionen für Roboter anzupassen, und das System unterstützt zudem die vorherige Testung mit dem MuJoCo-Physik-Simulator.
In Bezug auf Sicherheit hat dieses System ein umfassendes Sicherheitsmechanismus eingerichtet. Durch Live API wird eine semantische Sicherheitsprüfung durchgeführt, um die Konformität der Roboterhandlungen sicherzustellen, während der unterliegende Sicherheitscontroller genau die Kraft und Geschwindigkeit der Bewegungen verwaltet, um unerwartete Verletzungen zu verhindern.
Der Projektleiter Carolina Parada sagte: „Dieses System nutzt aktiv die multimodale Weltverstehensfähigkeit von Gemini, genau wie Gemini Texte, Code und Bilder generieren kann, kann es jetzt auch präzise Roboterbewegungen generieren.“
Zurzeit steht dieses Modell nur Entwicklern im vertrauenswürdigen Testprogramm zur Verfügung. Es ist erwähnenswert, dass dieses Modell auf der Architektur von Gemini 2.0 entwickelt wurde und gegenüber der neuesten Version von Gemini 2.5 technisch etwas zurückbleibt.