Récemment, le laboratoire de science informatique et d'intelligence artificielle (CSAIL) du Massachusetts Institute of Technology (MIT) et l'Institut Toyota ont lancé un outil d'intelligence artificielle générative appelé « génération de scènes contrôlable », visant à améliorer les capacités d'apprentissage des robots. Cet outil nouveau peut créer des environnements de formation virtuels, tels que la cuisine, le salon et le restaurant, pour permettre aux ingénieurs de tester comment les robots traitent les tâches de la vie réelle.

Remarque sur la source de l'image : l'image a été générée par l'IA, fournie par le service de licence Midjourney
La plateforme a été entraînée sur plus de 44 millions de données de chambres 3D et possède une caractéristique « contrôlable », utilisant une stratégie appelée « recherche arborescente de Monte Carlo » (Monte Carlo tree search, MCTS). La MCTS peut aider le modèle d'IA à identifier et à choisir les options de génération de scènes pour atteindre un objectif spécifique, par exemple rendre la scène aussi réaliste que possible ou ajouter davantage d'objets dans la scène. Cette stratégie permet au système d'apprendre constamment pendant l'entraînement, créant ainsi des scènes de plus en plus complexes.
Nicholas Pfaff, doctorant au MIT et chercheur au CSAIL, a déclaré que ce projet est le premier à appliquer la MCTS à la génération de scènes, considérant la tâche de génération de scènes comme un « processus de décision séquentielle ». Il a dit : « Nous construisons constamment des parties de scènes, générant progressivement des scènes meilleures ou plus idéales. Ainsi, les scènes générées par la MCTS sont plus complexes que celles entraînées par des modèles de diffusion. »
Les experts du secteur soulignent que ce travail peut combler un défaut principal dans l'apprentissage des robots, à savoir la pénurie de données d'entraînement de haute qualité qui a longtemps limité le développement technologique. Jeremy Binagia, scientifique en robotique chez Amazon, a déclaré : « La génération de scènes contrôlable offre une meilleure méthode… garantissant la faisabilité physique et rendant possible la génération de scènes plus intéressantes. »
Le groupe de recherche a déclaré que l'avantage de leur projet réside dans sa capacité à créer des scènes diversifiées et exploitables pour les ingénieurs. Pfaff a ajouté : « Grâce à notre méthode de guidage, nous sommes capables de générer des scènes diversifiées, réalistes et conformes aux tâches, afin d'entraîner nos robots. »
Même si ce système se trouve encore à l'étape de validation du concept, l'équipe espère étendre davantage d'objets et d'environnements, et utiliser finalement l'intelligence artificielle générative pour créer de nouveaux actifs, plutôt que de s'appuyer uniquement sur des bibliothèques fixes. En augmentant la diversité et la réalité des terrains d'entraînement virtuels, l'équipe souhaite également établir une communauté d'utilisateurs capable de générer un grand nombre de données, posant ainsi les bases pour que les robots développent des compétences plus larges.
Points clés :
🌐 Le MIT et l'Institut Toyota ont lancé un nouvel outil d'IA, renforçant les capacités d'entraînement virtuel des robots.
🤖 Ce nouvel outil utilise la technologie de recherche arborescente de Monte Carlo pour générer des scènes complexes, favorisant l'évolution de l'apprentissage des robots.
📈 L'objectif futur est d'étendre davantage d'objets et d'environnements, de créer une communauté d'utilisateurs pour soutenir l'entraînement des compétences des robots.