Google DeepMind hat offiziell sein neues Robotik-KI-Modell Gemini Robotics On-Device vorgestellt, was einen Meilenstein für die Robotik-KI-Technologie darstellt. Dieses Modell ist nicht nur in der Lage, auf Robotern lokal ohne Internetverbindung zu laufen, sondern zeigt auch starke Allgemeinheit und Aufgabenanpassungsfähigkeit, was eine revolutionäre Fortschritt in den Bereichen Industrie, Lagerhaltung und Haushaltsroboter bringt.

image.png

Überwindung der Cloud-Beschränkungen: Lokale Ausführung der Robotik-KI

Gemini Robotics On-Device ist ein visuelles-Sprach-Aktions (VLA)-Modell, das auf Google Gemini 2.0 basiert. Sein größtes Merkmal ist, dass es vollständig auf der lokalen Hardware des Roboters läuft und keine Abhängigkeit von Cloud-Rechenressourcen benötigt. Dies löst das Problem von Verzögerungen und Zuverlässigkeit in traditionellen Cloud-basierten Robotersystemen unter instabilen Netzwerkbedingungen. Carolina Parada, Senior Director bei DeepMind, sagte: „Dieses Modell ist klein und effizient und kann direkt auf der Roboter-Hardware laufen, um eine stabile Leistung bei geringer Latenz und im Offline-Bereich zu gewährleisten.“

image.png

Durch lokale Ausführung verbessert sich die Nützlichkeit von Gemini Robotics On-Device erheblich in Szenarien mit eingeschränktem Netzwerkzugang, wie Fabriken, Lagerhäuser oder abgelegene Gebiete. Tests zeigen, dass seine Leistung nahe an der Cloud-Gemini Robotics-Modelle herankommt und in mehreren Benchmarks andere lokale KI-Modelle übertrifft, was eine starke Wettbewerbsfähigkeit zeigt.

Allgemeinheit und Flexibilität: Von 50 Demonstrationen bis zu neuen Aufgaben

Gemini Robotics On-Device überrascht nicht nur in Bezug auf die Leistung, sondern auch in seiner Fähigkeit, neue Aufgaben anzupassen. DeepMind behauptet, dass dieses Modell mit nur 50 bis 100 Demonstrationen schnell neue Aufgaben übernehmen kann, z. B. Reißverschlüsse zu öffnen, Kleidung zu falten oder industrielle Montageaufgaben durchzuführen.

Das Modell wurde zunächst für den ALOHA-Roboter trainiert, aber es wurde erfolgreich auf den Doppelarm-Franka FR3-Roboter und den Apptronik Apollo-Roboter angepasst, wodurch seine Allgemeinheit über verschiedene Hardware-Plattformen gezeigt wird. Entwickler können das Modell mit natürlichen Sprachbefehlen steuern und anpassen, um komplexe Doppelarm-Aufgaben oder neue Objekte in dynamischen Umgebungen leicht zu bewältigen. Parada betonte: „Generative KI ermöglicht es Robotern, aus wenigen Daten zu generalisieren und die Implementierung in komplexen Szenarien erheblich zu beschleunigen.“

Öffnung der Entwickler-Ökosysteme: SDK zur Förderung der Innovation

Um die branchenspezifische Anwendung von Gemini Robotics On-Device zu beschleunigen, hat Google DeepMind gleichzeitig ein Software Development Kit (SDK) veröffentlicht, das jetzt über GitHub für das „Trusted Tester“-Programm zugänglich ist. Entwickler können das SDK nutzen, um das Modell in der Google-MuJoCo-Physik-Simulationsumgebung oder in realen Umgebungen zu testen und anzupassen. Dieser Schritt markiert die erste Offenlegung von VLA-Modellen für das Anpassen durch Entwickler seitens DeepMind und legt den Weg für maßgeschneiderte Anwendungen der Robotik-KI frei.

Das SDK ermöglicht Entwicklern, mit wenigen Demonstrationen schnell Roboter für bestimmte Aufgaben zu trainieren, z. B. ein Zauberwürfel in eine Tasche zu legen oder feine industrielle Operationen durchzuführen. DeepMind gibt an, dass das Modell in neuen Szenarien und Objekten, die es noch nicht gesehen hat, hervorragend abschneidet, z. B. bei Montageaufgaben auf einer Industrielinie, was eine starke Generalisierungsfähigkeit zeigt.

Sicherheit und Branchenausblick: Der nächste Schritt für die Robotik-KI

In Bezug auf Sicherheit betont DeepMind, dass Gemini Robotics On-Device durch umfassende Sicherheitsmaßnahmen und Zusammenarbeit mit Experten und Politikmachern potenzielle Risiken reduzieren möchte. Gleichzeitig wird die Veröffentlichung dieses Modells als Teil des intensiven Wettbewerbs zwischen Google und Konkurrenten wie Nvidia GR00T und OpenAI RT-2 im Bereich allgemeiner Robotik-KI betrachtet.

Von Lagerrobotern bis hin zu Haushaltsdienstrobotern bietet Gemini Robotics On-Device seine Fähigkeit zur lokalen Ausführung und schnellem Lernen, was eine breite Anwendung in verschiedenen Szenarien ermöglicht. AIbase glaubt, dass diese Technologie nicht nur die Kosten für die Robotereinrichtung senken wird, sondern auch dazu beitragen könnte, dass KI-gestützte Automatisierung in mehr Alltagsszenarien eingeführt wird.

Modell-Einstieg: https://deepmind.google/discover/blog/gemini-robotics-on-device-brings-ai-to-local-robotic-devices/