Google DeepMind a récemment publié un article de blog pour présenter officiellement son nouveau modèle d'intelligence artificielle pour robots, Gemini Robotics On-Device, qui est une architecture visuelle-langage-action (VLA). Ce modèle permet un contrôle précis des robots physiques sans nécessiter de soutien en nuage.

Le point le plus important de ce nouveau modèle est qu'il fonctionne entièrement sur le dispositif du robot lui-même, offrant ainsi une réponse à faible latence. Cette caractéristique le rend particulièrement adapté aux environnements où la connexion réseau est instable, comme dans les lieux médicaux, qui sont des applications critiques.

QQ20250625-093338.png

En termes de précision opérationnelle, ce modèle démontre des capacités impressionnantes, pouvant accomplir des tâches complexes comme ouvrir une fermeture éclair, plier des vêtements ou attacher des lacets. Le système utilise une conception à deux bras mécaniques et est déjà compatible avec les plateformes de robots humanoïdes ALOHA, Franka FR3 et Apollo.

Google propose aux développeurs un kit complet de développement Gemini Robotics (SDK), réduisant ainsi considérablement les barrières à l'adaptation. Les développeurs n'ont besoin que de 50 à 100 démonstrations de tâches pour personnaliser de nouvelles fonctions pour les robots, et le système prend également en charge le simulateur physique MuJoCo pour des tests préalables.

QQ20250625-093352.png

En matière de sécurité, le système dispose d'un mécanisme complet de protection. L'API Live permet une détection sémantique de la sécurité, assurant la conformité du comportement du robot, tandis que le contrôleur de sécurité en bas niveau gère précisément l'intensité et la vitesse des mouvements, évitant ainsi les blessures accidentelles.

Le responsable du projet, Carolina Parada, a déclaré : « Ce système tire pleinement parti de la capacité multimodale de compréhension du monde de Gemini, tout comme Gemini peut générer du texte, du code et des images, il peut maintenant également générer des mouvements précis pour les robots. »

Actuellement, ce modèle est disponible uniquement pour les développeurs participants à un programme de test fiable. Il convient de noter que ce modèle a été développé sur la base de l'architecture Gemini 2.0, ce qui signifie qu'il présente un écart technologique par rapport à la dernière version de Google, Gemini 2.5.