Le 9 octobre, xAI, entreprise fondée par Musk, a annoncé le lancement de son nouveau modèle de génération vidéo Imagine v0.9, marquant ainsi un important progrès pour l'entreprise dans le domaine de la création d'IA multimodale. Comparé à la version précédente v0.1, le nouveau modèle a connu une amélioration globale en matière de qualité visuelle, naturel des mouvements et génération audio.

 Trois principales améliorations

  • Qualité visuelle : la résolution est plus élevée, les détails sont plus riches, et la qualité globale se rapproche du niveau professionnel de cinéma.

  • Génération des mouvements : les mouvements des personnages et des scènes sont plus fluides et naturels, sans rupture visible entre les actions.

  • Pouvoirs audio : la génération audio native a été ajoutée, permettant de produire simultanément de la musique d'arrière-plan, des dialogues et des chansons.

 Génération d'œuvres de niveau cinéma avec un seul clic

Imagine v0.9 permet une sortie vidéo complète « générée instantanément, sans édition ultérieure », avec des fonctionnalités telles que la composition intelligente et le contrôle du mouvement de la caméra, permettant aux créateurs de générer rapidement des courts ou longs métrages ayant un sens narratif cinématographique.

Fonctionnalités spéciales du modèle

  • Synchronisation des effets sonores : l'image et les sons sont synchronisés au niveau des images, renforçant l'immersion.

  • Effets de photographie dynamiques : supporte le zoom automatique, le réglage de la profondeur de champ et d'autres langages de mise en scène de cinéma.

  • Génération naturelle des dialogues et des chants : les personnages peuvent générer des voix ou des chansons claires et émotionnellement synchronisées.

  • Reconnaissance de la danse et du rythme : l'IA peut capturer précisément le rythme de la musique et générer des mouvements coordonnés.

xAI affirme que le lancement d'Imagine v0.9 ouvre de nouvelles frontières pour la création vidéo par IA, permettant aux utilisateurs de générer rapidement des œuvres multimodales complètes comprenant une narration visuelle, une expression sonore et un sentiment de rythme, grâce à des instructions textuelles.