Au récent congrès international SIGGRAPH sur la graphique informatique et les technologies d'interaction, NVIDIA a présenté une série de nouvelles technologies pour les développeurs de robots, dont le modèle d'intelligence artificielle physique open source le plus remarquable : Cosmos Reason. Ce modèle comporte 7 milliards de paramètres et vise à offrir aux robots une capacité de raisonnement visuel plus efficace.

image.png

NVIDIA souligne que depuis la sortie du modèle CLIP par OpenAI, les modèles de langage visuel ont connu des progrès notables dans le domaine de la vision informatique, notamment dans les tâches telles que l'identification d'objets et la reconnaissance de motifs. Cependant, les modèles traditionnels ont souvent du mal face aux tâches complexes en plusieurs étapes, surtout lorsqu'ils traitent des situations réelles floues ou nouvelles. Cosmos Reason, grâce à ses capacités exceptionnelles de mémoire et de compréhension, permet aux robots de raisonner comme des humains, permettant ainsi des décisions d'action plus rationnelles dans le monde réel.

Dans les scénarios d'application pratiques présentés par NVIDIA, le bras robotique exécutant ce modèle de raisonnement visuel a réussi à identifier la combinaison « pain + grille-pain », et a déduit qu'une action raisonnable suivante était de placer le pain dans le grille-pain pour le faire griller. Ce processus est appelé « planification et raisonnement des robots », illustrant l'efficacité et la flexibilité de Cosmos Reason lorsqu'il traite des instructions complexes.

image.png

Hors du rôle de « cerveau de raisonnement » des robots, Cosmos Reason peut également être appliqué à de nombreux autres domaines de l'IA. Par exemple, il peut automatiser le traitement d'ensembles de données d'entraînement de grande taille et variés, les organiser et les annoter. De plus, il peut extraire des informations importantes à partir de grandes quantités de données vidéo et les analyser efficacement. Actuellement, ce modèle est déjà utilisé dans un cadre commercial, et les équipes de robots et d'autonomie des véhicules de NVIDIA utilisent actuellement ce modèle pour l'organisation et l'annotation des données.

Il convient de noter que Uber utilise également Cosmos Reason pour fournir des annotations et des instructions pour les données d'entraînement de son système d'autopilotage. Magna International utilise ce modèle pour développer des solutions de livraison automatisée en temps réel, visant à aider les véhicules à s'adapter plus rapidement à de nouvelles environnements urbains. En outre, des entreprises comme VAST Data et Milestone Systems appliquent cette technologie dans les domaines de la surveillance routière et de la détection visuelle.

Au-delà de Cosmos Reason, NVIDIA a également ajouté Cosmos Transfer-2 au modèle mondial Cosmos, visant à accélérer la génération de données synthétisées dans les scènes de simulation 3D. En outre, NVIDIA a mis à jour le logiciel SDK Omniverse et a lancé une nouvelle bibliothèque de reconstruction neuronale, élargissant davantage les choix d'outils disponibles pour les développeurs.

Points clés :

1. 🤖 Le modèle Cosmos Reason développé par NVIDIA permet aux robots de réaliser un raisonnement visuel efficace et des décisions complexes.

2. 🚗 Ce modèle est déjà utilisé dans plusieurs domaines commerciaux, y compris l'annotation de données pour l'autopilotage d'Uber et les solutions de livraison de Magna International.

3. 🛠️ NVIDIA a également mis à jour ses outils de développement, favorisant ainsi l'intégration de la technologie robotique et de l'IA.