Google a récemment lancé son tout dernier modèle de génération vidéo, Veo3, marquant ainsi un bond important dans la technologie vidéo IA. Ce nouveau modèle permet la génération synchrone d'images et de sons, capable de créer des vidéos de haute qualité avec dialogues, mouvements de lèvres alignés et effets sonores environnementaux en fonction des suggestions fournies par l'utilisateur. Cette avancée a permis à la création vidéo IA de franchir une nouvelle frontière, rendant les vidéos non seulement animées, mais aussi capables de « parler ».
Le cœur de la technologie de Veo3 repose sur un algorithme appelé V2A (Video-to-Audio), qui convertit les informations visuelles des vidéos en signaux sémantiques combinés aux suggestions textuelles pour générer une piste audio. En s'appuyant sur les vastes ressources de données accumulées sur des plateformes comme YouTube, Veo3 démontre des capacités impressionnantes de synthèse image-son. Bien que cet outil ne soit actuellement accessible qu'aux utilisateurs premium américains payant 249,99 dollars, son lancement ouvre de nouvelles perspectives pour le domaine de la création vidéo.
Crédits : Image générée par une IA, service d'autorisation d'image Midjourney
Les capacités impressionnantes de Veo3 se manifestent sous plusieurs angles. Tout d'abord, il est capable de générer automatiquement des mouvements de lèvres synchronisés pour des dialogues et des effets sonores réaliste. Par exemple, un utilisateur peut simplement saisir une suggestion simple, et Veo3 produira une séquence complète de vidéo incluant des dialogues, des bruits d'environnement, voire même des rires du public, créant une impression de réalité frappante. De plus, Veo3 comprend des instructions complexes, générant des segments vidéo logiquement cohérents et ordonnés dans le temps, ce qui était difficile à accomplir avec les modèles de génération vidéo précédents. Enfin, le modèle excelle dans la simulation des sons du monde physique, tels que les pas ou les bruits de cuisine, augmentant ainsi l'immersion et la vivacité des vidéos.
Même si Veo3 est limité à une durée de 8 secondes pour les vidéos courtes et n'est accessible pour l'instant qu'à un public premium, ses capacités exceptionnelles de synchronisation image-son ont suscité beaucoup d'intérêt. À mesure que la technologie continue de progresser, il est certain que Veo3 propulsera la technologie de génération vidéo vers de nouveaux sommets.