Récemment, DeepMind a présenté un concept révolutionnaire dans son dernier article : « la chaîne de cadres » (CoF, chain-of-frames), marquant ainsi une importante avancée dans le développement des modèles de génération vidéo. Ce concept est similaire au « raisonnement en chaîne » (CoT), qui a permis aux modèles de langage de réaliser des raisonnements symboliques. La « chaîne de cadres », quant à elle, permet aux modèles vidéo de raisonner dans le temps et dans l'espace, comme si les modèles de génération vidéo avaient une capacité d'intelligence propre.
Dans l'article, l'équipe de recherche de DeepMind a proposé une idée audacieuse : les modèles de génération vidéo pourraient-ils posséder une capacité de compréhension visuelle universelle, capable de traiter diverses tâches visuelles sans entraînement spécifique, tout comme les grands modèles de langage (LLM) actuels ? Actuellement, le domaine de la vision par ordinateur reste encore dans une phase traditionnelle, où chaque tâche nécessite un modèle différent, comme la segmentation d'objets ou la détection d'objets, et chaque changement de tâche exige un recalibrage du modèle.
Pour vérifier cette idée, l'équipe de recherche a utilisé une méthode simple mais efficace : fournir au modèle uniquement une image initiale et une instruction textuelle, afin de voir s'il pouvait générer une vidéo de résolution 720p d'une durée de 8 secondes. Cette approche est similaire à celle utilisée par les grands modèles de langage pour effectuer des tâches via des instructions, avec l'objectif de tester la capacité naturelle du modèle.
Les résultats ont montré que le modèle Veo3 de DeepMind a excellé sur plusieurs tâches visuelles classiques, démontrant qu'il possède des capacités de perception, de modélisation et de manipulation. Plus surprenant encore, il a montré une excellente capacité de raisonnement visuel transversal dans le temps et l'espace, réussissant à planifier une série de chemins pour résoudre des problèmes visuels complexes.
En général, l'équipe de DeepMind a résumé trois conclusions principales :
Adaptabilité universelle : Veo3 peut résoudre de nombreuses tâches non entraînées spécifiquement, démontrant une forte capacité universelle.
Apparition du raisonnement visuel : En analysant les vidéos générées, Veo3 a montré une capacité de raisonnement visuel similaire à celle de la « chaîne de cadres », construisant progressivement une compréhension du monde visuel.
Tendance à une croissance rapide : Bien que les modèles spécialisés soient plus performants sur certaines tâches, les capacités de Veo3 augmentent rapidement, annonçant la possibilité d'apparition de modèles visuels universels encore plus puissants à l'avenir.
A l'avenir, DeepMind pense que les modèles vidéo universels pourraient remplacer les modèles spécialisés, tout comme GPT-3 a finalement évolué en un modèle fondamental puissant. Avec la baisse progressive des coûts, l'utilisation large des modèles de génération vidéo est imminente, annonçant l'arrivée d'une nouvelle ère de la vision par ordinateur.
Lien vers l'article : https://papers-pdfs.assets.alphaxiv.org/2509.20328v1.pdf