Le leader du domaine de la génération vidéo par IA en Chine, Vidu, a récemment annoncé une importante mise à jour de son modèle Q1, avec l'introduction d'une nouvelle fonctionnalité baptisée « Référence vers vidéo » (Reference-to-Video). Cette fonction permet aux utilisateurs de télécharger jusqu'à sept images de référence et de générer des vidéos en 1080p présentant une cohérence visuelle extrêmement élevée. Cette innovation surmonte les contraintes traditionnelles des systèmes de génération vidéo par IA en matière de cohérence dans plusieurs scènes et personnages, offrant aux créateurs un niveau de flexibilité et de liberté de création sans précédent.

image.png

Référence vers vidéo : Sept images pour déverrouiller des récits complexes

La fonction « Référence vers vidéo » de Vidu Q1 est le point fort principal de cette mise à jour. Les utilisateurs peuvent charger jusqu'à sept images de référence, comprenant des éléments tels que des personnages, des décors ou des objets, et générer une vidéo de haute qualité en combinant ces images avec des mots-clés textuels. Grâce à une technologie avancée de fusion sémantique, Vidu Q1 garantit une cohérence élevée des éléments présents sur les différentes images au sein de la vidéo, évitant ainsi les problèmes courants tels que les ruptures de scène ou les distorsions des personnages rencontrés dans les systèmes de génération vidéo par IA traditionnels.

Par exemple, les utilisateurs peuvent charger une photo d'une personne, un arrière-plan forêt et une image d'un animal, puis entrer le mot-clé : « Une femme joue de la guitare dans une forêt, un hibou se pose sur une branche. » Vidu Q1 peut alors générer intelligemment une vidéo incluant l'action de jouer de la guitare, l'environnement forestier et le hibou, avec des détails comme les textures des vêtements, les éclairages du décor et les mouvements de l'animal rendus très réalistes. Cette fonction offre aux créateurs de dessins animés, de courts métrages et de publicités un outil puissant, réduisant considérablement les barrières à la production de scènes complexes.

Cohérence entre plusieurs personnages : Créer une expérience visuelle fluide

La technologie de cohérence entre plusieurs personnages (Multiple-Entity Consistency) de Vidu Q1 est l'une de ses principales forces concurrentielles. Les utilisateurs peuvent charger différents types d'images de référence (comme des personnages, des objets ou des environnements), afin de générer des vidéos incluant des interactions entre plusieurs personnages, tout en maintenant les caractéristiques de chaque personnage stable tout au long de la vidéo. Par exemple, en chargeant une photo d'un personnage, une tenue imprimée et une image d'un vélo, Vidu Q1 peut générer une vidéo fluide montrant le personnage portant la tenue spécifiée et pédalant sur le vélo, avec des détails tels que l'imprimé et la forme du vélo parfaitement alignés avec les images de référence.