Récemment, l'équipe de Google DeepMind a collaboré avec l'université Brown pour développer une nouvelle technologie appelée « prompt de force » (force prompting). Cette technologie peut générer des effets de mouvement réalistes sans nécessiter de modèles 3D ou d'engins physiques, marquant ainsi une grande avancée dans le domaine de la génération vidéo par intelligence artificielle.

image.png

Avec cette technologie, les utilisateurs peuvent simplement spécifier la direction et l'intensité de la force pour contrôler le contenu vidéo généré par IA. Le prompt de force peut s'appliquer à des forces globales (par exemple : vent général) et des forces locales (comme un coup spécifique sur un point particulier). Les forces entrantes sont sous forme de champ vectoriel, puis converties en mouvements naturels et fluides, ce qui améliore grandement la sensation de réalité et la dynamique de la vidéo générée.

L'équipe de recherche a basé son modèle vidéo sur CogVideoX-5B-IV et a ajouté un module ControlNet pour traiter les données de contrôle physique. L'ensemble du signal est généré via une architecture Transformer pour créer la vidéo, chaque vidéo composée de 49 images, et l'entraînement n'a nécessité que 4 GPU Nvidia A100, sur une durée d'un jour seulement.

Il convient de noter que les données d'entraînement provenaient entièrement de synthèse, incluant 15 000 vidéos de drapeaux ondulant sous différentes intensités de vent, 12 000 vidéos de sphères roulant et 11 000 vidéos de fleurs réagissant à des impacts. Ces données synthétiques riches ont permis au modèle de comprendre automatiquement les relations entre les termes physiques mentionnés dans les descriptions textuelles, comme « vent » ou « bulles », et les mouvements correspondants lors de la génération.

Même si la quantité de données d'entraînement est limitée, le modèle montre une capacité de généralisation impressionnante, capable de s'adapter à de nouveaux objets, matériaux et scénarios, et même d'apprendre certaines règles physiques simples, telles que l'observation qu'un objet léger se déplace plus loin qu'un objet lourd sous la même force.

Les tests utilisateur montrent que la technologie de prompt de force excelle en termes de précision du mouvement et de réalisme par rapport aux modèles de référence qui dépendent uniquement du texte ou des chemins de mouvement. Elle dépasse également PhysDreamer, basé sur des simulations physiques réelles. Toutefois, certaines lacunes persistent dans les scénarios complexes, comme le fait que la fumée ne soit pas toujours correctement influencée par le vent ou que les mouvements des bras humains ressemblent parfois à ceux du tissu.

Demis Hassabis, PDG de DeepMind, a déclaré que les prochaines générations de modèles vidéo IA (comme Veo3) commencent progressivement à comprendre les lois physiques, allant au-delà du traitement du texte ou des images pour représenter la structure physique du monde. Cela marque une étape importante vers une IA plus générale, où les futures intelligences artificielles pourront optimiser et améliorer leurs capacités grâce à l'apprentissage à partir de l'expérience dans des environnements de simulation.

Page du projet : https://force-prompting.github.io/

Points clés :

🌟 Nouvelle technologie « prompt de force » générant des vidéos de mouvements réalistes sans modèle 3D ni moteur physique.  

⚙️ Les utilisateurs peuvent obtenir des performances de mouvement naturel et fluide en spécifiant simplement la direction et l'intensité de la force.  

📈 Le modèle affiche une capacité de généralisation exceptionnelle, capable de s'adapter à de nouveaux objets, matériaux et scénarios.