L'équipe de recherche en IA de Meta a encore une fois accompli une percée dans le domaine de l'intelligence artificielle, lançant officiellement le 11 juin 2025 un nouveau modèle de compréhension vidéo appelé V-JEPA2 (Video Joint Embedding Predictive Architecture2). Ce modèle, dirigé par Yann LeCun, le principal scientifique en IA de Meta, repose sur des technologies novatrices d'apprentissage autosoignant et la capacité de contrôle des robots sans étiquettes, ouvrant de nouvelles perspectives pour la compréhension des vidéos et la modélisation du monde physique. AIbase analyse en profondeur cette technologie avant-gardiste ainsi que ses impacts potentiels.
V-JEPA2 : Le « modèle mondial » de la compréhension vidéo
V-JEPA2 est un modèle d'IA non génératif axé sur la compréhension vidéo, capable d'observer des vidéos pour juger les événements en cours et prédire leurs développements futurs. Contrairement aux modèles traditionnels d'analyse vidéo, V-JEPA2 simule le processus cognitif humain en apprenant automatiquement des milliers d’heures de vidéos non étiquetées pour extraire des représentations abstraites et développer une compréhension interne du monde physique. Cette architecture de « modèle mondial » lui permet non seulement de comprendre les interactions entre objets dans une vidéo, mais aussi de prévoir les trajectoires de mouvement et les changements de scène.
Selon Meta, pendant le processus de formation, V-JEPA2 a utilisé plus d’un million d’heures de vidéos couvrant divers scénarios et interactions. Cette vaste formation a doté le modèle d’une capacité de généralisation impressionnante, lui permettant de s'adapter à de nouvelles tâches et environnements inconnus sans réentraînement supplémentaire.
Innovations technologiques : Cinq points clés pour le futur de l'IA
Les ruptures technologiques de V-JEPA2 se reflètent dans cinq aspects essentiels :
Apprentissage autosoignant : V-JEPA2 n’a pas besoin de grandes quantités de données étiquetées, car il apprend automatiquement des connaissances à partir de vidéos non étiquetées, réduisant considérablement les coûts de préparation des données.
Mécanisme de prédiction de masquage : En masquant aléatoirement certaines parties dans une vidéo, le modèle est entraîné à prédire le contenu masqué, similaire à un « exercice de complétion », afin d’apprendre la sémantique profonde de la vidéo.
Apprentissage de représentations abstraites : Contrairement aux méthodes traditionnelles de reconstruction pixel par pixel, V-JEPA2 se concentre sur l’apprentissage des significations abstraites de la vidéo, comprenant les relations et les dynamiques entre objets, plutôt que de mémoriser simplement les détails visuels.
Architecture de modèle mondial : Le modèle construit une compréhension interne du monde physique, pouvant « imaginer » comment les objets bougent et interagissent, comme la trajectoire de rebond d'une balle ou les résultats d'un impact entre objets.
Capacité de transfert efficace : Basée sur une compréhension fondamentale du monde physique, V-JEPA2 peut s'adapter rapidement à de nouvelles tâches, montrant une capacité d’apprentissage sans échantillons impressionnante, notamment dans le domaine du contrôle des robots.
Ces innovations permettent à V-JEPA2 de performer exceptionnellement bien dans des tâches telles que la classification vidéo, la reconnaissance des actions et la détection d'actions spatiales-temporelles, surpassant les modèles traditionnels tout en améliorant l'efficacité de l'entraînement de 1,5 à 6 fois.
Contrôle des robots sans échantillon : Un pont vers le monde réel
Une des applications les plus captivantes de V-JEPA2 est le contrôle des robots sans échantillon. Contrairement aux modèles traditionnels de contrôle robotique (comme YOLO), qui nécessitent une grande quantité de formation spécifique, V-JEPA2, grâce à sa capacité de transfert et à sa compréhension du monde physique, peut contrôler des robots pour effectuer de nouvelles tâches sans être spécifiquement formé. Par exemple, un robot peut comprendre son environnement en temps réel via des vidéos et exécuter des opérations comme déplacer des objets ou naviguer dans des scénarios inconnus.
Meta indique que la capacité de V-JEPA2 en tant que « modèle mondial » présente un grand potentiel dans le domaine des robots. Par exemple, un robot peut observer des vidéos pour comprendre des lois physiques comme la gravité ou les collisions, réalisant ainsi des tâches complexes dans le monde réel, comme cuisiner ou aider à la maison. Cette fonctionnalité pave la voie au développement d'robots intelligents et d’appareils d'augmentation réelle (AR).
Comparaison des performances : Une avancée en rapidité et efficacité
D'après les données fournies par Meta, V-JEPA2 se distingue brillamment dans plusieurs tests benchmarks, surpassant notamment des modèles traditionnels comme ViT-L/16 et Hiera-L dans la compréhension des actions et des vidéos. Comparé au modèle Cosmos de NVIDIA, V-JEPA2 est 30 fois plus rapide lors de l’entraînement, ce qui témoigne d'une excellente efficacité. De plus, le modèle se montre particulièrement performant dans les scénarios avec peu d’échantillons, atteignant des précisions élevées avec très peu de données étiquetées, ce qui reflète sa forte capacité de généralisation.
Partage ouvert : Promouvoir la recherche mondiale en IA
Conformément à l'idée de science ouverte, Meta a rendu V-JEPA2 disponible sous licence CC-BY-NC, offrant aux chercheurs et développeurs du monde entier une utilisation gratuite. Le code du modèle est accessible sur GitHub et peut être exécuté sur des plateformes comme Google Colab et Kaggle. De plus, Meta a publié trois benchmarks de raisonnement physique (MVPBench, IntPhys2 et CausalVQA), fournissant des outils standardisés d’évaluation pour la recherche dans le domaine de la compréhension vidéo et du contrôle des robots.
Projections futures : Un jalon vers une intelligence générale
Le lancement de V-JEPA2 représente une étape importante pour Meta dans son ambition d’atteindre une **intelligence artificielle avancée (AMI)**. Dans une vidéo, Yann LeCun a déclaré : « Les modèles mondiaux ouvriront une nouvelle ère pour la robotique, permettant aux agents IA d'exécuter des tâches dans le monde réel sans nécessiter une grande quantité de données d’entraînement. » À l’avenir, Meta prévoit d’étendre les capacités de V-JEPA2 en ajoutant des analyses audio et une meilleure compréhension des vidéos longues, offrant un soutien plus puissant pour des applications comme les lunettes AR et les assistants virtuels.
AIbase considère que le lancement de V-JEPA2 constitue non seulement une rupture technologique dans le domaine de la compréhension vidéo, mais marque également le passage de l'IA de traitement de tâches spécifiques à une intelligence générale. Sa capacité de contrôle des robots sans échantillon offre des possibilités infinies pour le développement des robots, du métavers et des dispositifs interactifs intelligents.
Conclusion d'AIbase
Grâce à son apprentissage autosoignant innovant et son architecture de modèle mondial, V-JEPA2 apporte une transformation disruptive dans les domaines de la compréhension vidéo et du contrôle des robots. De la vente en direct à l'intelligence domestique, les perspectives d'utilisation de ce modèle sont pleines d'espoir.