La technologie des robots connaît une révolution fondamentale. Le projet Gemini Robotics, récemment publié par Google DeepMind, présente deux nouveaux modèles qui travaillent en synergie et réalisent pour la première fois un système de robotique capable de « penser » avant d’agir. Cette percée pourrait complètement transformer les limites actuelles des robots, qui ne peuvent exécuter que des tâches spécifiques.

Les technologies d'IA générative sont devenues courantes dans la création de textes, d'images, d'audio et de vidéos. À présent, ces mêmes technologies sont appliquées pour générer des instructions d'action pour les robots. L'équipe de DeepMind considère que l'IA générative est particulièrement importante pour la technologie robotique, car elle permet d'accéder à des fonctionnalités générales.

Le problème central des robots actuels est leur sur-spécialisation. Chaque robot doit être entraîné intensivement pour des tâches spécifiques et se comporte mal lorsqu'il s'agit d'autres tâches. Carolina Parada, responsable du département de robotique de Google DeepMind, a déclaré : « Les robots d'aujourd'hui sont fortement personnalisés et difficiles à déployer, souvent nécessitant plusieurs mois pour installer une unité robotique capable d'exécuter une seule tâche. »

image.png

Les caractéristiques fondamentales des systèmes génératifs rendent les robots pilotés par l'IA plus universels. Ils peuvent faire face à de nouveaux environnements et espaces de travail sans avoir besoin de reprogrammation. La méthode actuelle de la technologie robotique de DeepMind repose sur la collaboration de deux modèles : un qui pense, et un qui exécute.

Ces deux nouveaux modèles portent respectivement les noms de Gemini Robotics 1.5 et Gemini Robotics-ER 1.5. Le premier est un modèle vision-langage-action capable de générer des instructions d'action pour les robots à partir de données visuelles et textuelles. Le « ER » dans le second signifie « raisonnement incarné », un modèle vision-langage qui reçoit des entrées visuelles et textuelles pour générer les étapes nécessaires pour accomplir une tâche complexe.

Gemini Robotics-ER 1.5 est le premier système d'IA robotique capable de raisonner de manière similaire au processus de raisonnement des chatbots modernes. DeepMind le désigne comme la capacité de « penser », bien que ce terme puisse ne pas être tout à fait précis dans le domaine de l'IA générative. Selon DeepMind, le modèle ER obtient des résultats exceptionnels dans des tests académiques et internes, ce qui indique qu'il peut prendre des décisions précises sur la façon d'interagir avec l'espace physique. Cependant, il ne réalise pas lui-même d'actions, ce qui nécessite la coopération de Gemini Robotics 1.5.

Prenons l'exemple du tri des vêtements : lorsqu'un robot doit séparer une pile de vêtements en blancs et en colorés, Gemini Robotics-ER 1.5 traite cette demande et analyse les images de l'environnement physique. Ce système d'IA peut également utiliser des outils comme la recherche Google pour collecter davantage de données. Ensuite, le modèle ER génère des instructions en langage naturel pour fournir aux robots les étapes spécifiques nécessaires pour accomplir la tâche.

L'innovation de cette architecture à deux modèles réside dans la séparation entre le raisonnement et l'exécution. Le modèle de raisonnement se concentre sur la compréhension des exigences de la tâche et de l'état de l'environnement, en élaborant un plan détaillé. Le modèle d'exécution, quant à lui, se charge de transformer ces plans en actions précises pour le robot. Cette approche de division des tâches permet aux systèmes robotiques d'avoir à la fois une capacité de réflexion complexe et une efficacité d'exécution précise.

D'un point de vue des tendances technologiques, cette percée pourrait marquer un point tournant important pour la technologie robotique, passant d'une spécialisation à une généralisation. Les robots traditionnels doivent être entraînés et ajustés en grande quantité pour chaque nouvelle tâche, tandis que les robots dotés de capacités d'IA générative pourraient théoriquement s'adapter rapidement à de nouveaux scénarios de travail grâce à des instructions en langage naturel.

Bien sûr, cette technologie se trouve encore à une phase initiale, et des défis divers pourraient surgir lors de son déploiement pratique. La performance des robots dans des environnements réels complexes, la garantie de la sécurité ou le contrôle des coûts restent à résoudre. Cependant, cette tentative de DeepMind marque clairement une direction prometteuse pour l'avenir de la technologie robotique.

Avec l'amélioration continue des technologies d'IA, nous sommes sur le point de voir un moment historique où les robots passeront d'exécutants de tâches spécifiques à des assistants intelligents véritables.