Dans le domaine des robots, faire en sorte que l'intelligence artificielle comprenne vraiment le monde en trois dimensions reste un problème complexe. Les modèles de langage visuel (VLA) traditionnels reposent principalement sur des données images 2D et du texte, ce qui les rend difficiles à comprendre l'espace en trois dimensions dans l'environnement réel. Cependant, une équipe de recherche issue de l'Université de Shanghai Jiao Tong et de l'Université de Cambridge a récemment proposé un nouveau modèle d'action visuel-langage amélioré appelé Evo-0. En intégrant de manière légère les connaissances géométriques en 3D, cela a permis d'améliorer significativement la capacité des robots à comprendre l'espace lors de tâches complexes.
L'innovation du modèle Evo-0 réside dans son utilisation du modèle fondamental de géométrie visuelle (VGGT), qui extrait des informations sur la structure en trois dimensions à partir d'images RGB de plusieurs points de vue, et les combine avec les modèles de langage visuel existants. Cette approche évite non seulement l'utilisation de capteurs supplémentaires ou d'entrées de profondeur explicites, mais améliore également considérablement la perception spatiale. Dans des expériences de simulation RLBench, Evo-0 a obtenu une réussite supérieure de 15 % par rapport au modèle de base pi0 sur cinq tâches nécessitant une manipulation précise, et une amélioration de 31 % par rapport à openvla-oft.
En détail, Evo-0 utilise VGGT comme encodeur spatial et intègre des tokens t3^D extraits par VGGT, qui contiennent des informations géométriques telles que le contexte de profondeur et les relations spatiales. Grâce au module de fusion par attention croisée, le modèle peut efficacement combiner les tokens visuels 2D extraits avec les tokens 3D, améliorant ainsi la compréhension de la disposition spatiale et des relations entre les objets. Cette méthode améliore à la fois l'efficacité de l'entraînement, la flexibilité et la facilité de déploiement.
Dans les expériences du monde réel, Evo-0 s'est distingué dans la gestion de tâches complexes en espace, y compris le positionnement centré d'objectifs, le branchement, la saisie dense, etc., dépassant le modèle de base avec une augmentation moyenne de 28,88 % de taux de réussite. En particulier, Evo-0 montre un avantage net en matière de compréhension et de maîtrise des relations spatiales complexes.
En conclusion, Evo-0, grâce à une intégration habile des informations spatiales, propose un nouveau chemin réalisable pour les stratégies robotiques générales. Cette recherche a suscité un large intérêt dans le milieu académique et apporte de nouvelles possibilités pour les applications pratiques dans le domaine des robots.