Alibaba Tongyi annonce la publication en open source de sa série de modèles Wan2.1, incluant un puissant modèle de génération vidéo à partir d'images clés de début et de fin. Ce modèle utilise l'architecture DiT avancée, marquant plusieurs avancées technologiques. Il réduit considérablement le coût de calcul de la génération de vidéos haute définition, tout en garantissant une grande cohérence temporelle et spatiale des vidéos générées. Cette publication en open source offre aux développeurs et aux créateurs un outil puissant pour faire progresser la technologie de génération vidéo.

Les modèles de la série Wan2.1 publiés par Alibaba Tongyi ont été optimisés et innovés à plusieurs niveaux. Notamment, le modèle VAE de compression vidéo haute efficacité réduit considérablement le coût de calcul, rendant la génération de vidéos haute définition plus efficace et économique. La partie Transformer du modèle est basée sur la structure DiT vidéo dominante, utilisant le mécanisme Full Attention pour capturer précisément les relations spatio-temporelles à long terme, garantissant ainsi une grande cohérence temporelle et spatiale des vidéos générées. De plus, le modèle de génération vidéo à partir d'images clés de début et de fin intègre une branche de contrôle conditionnel supplémentaire. Les images clés de début et de fin fournies par l'utilisateur servent de conditions de contrôle, permettant via cette branche une transition fluide et précise entre les images clés.

微信截图_20250418075738.png

En termes d'optimisation de l'entraînement et de l'inférence, le modèle de génération vidéo à partir d'images clés de début et de fin de Tongyi Wanxiang utilise la méthode d'appariement de flux (Flow Matching) basée sur une trajectoire de bruit linéaire. Pendant la phase d'entraînement, le modèle utilise une stratégie de distribution combinant le parallélisme de données (DP) et le parallélisme de données entièrement partitionné (FSDP), prenant en charge l'entraînement de segments vidéo de 720p et de 5 secondes. Pendant la phase d'inférence, le modèle utilise une stratégie de partitionnement du modèle et une stratégie de parallélisation séquentielle, réduisant considérablement le temps d'inférence. Simultanément, il utilise un opérateur FlashAttention3INT8 et FP8 hybride pour la quantification 8 bits de la partie mécanisme d'attention, garantissant ainsi une inférence sans perte de qualité.

L'entraînement du modèle se déroule en trois phases, améliorant progressivement ses capacités. La première phase utilise le même jeu de données que le modèle de base, effectuant un entraînement mixte de tâches de génération d'images à vidéos, d'interpolation d'images à n'importe quelle position et de prolongation vidéo à une résolution de 480p. La deuxième phase construit des données d'entraînement spécialement conçues pour le mode d'images clés de début et de fin, sélectionnant des segments vidéo avec des différences importantes entre les images clés de début et de fin, afin d'optimiser la capacité de génération des images clés. La troisième phase utilise un jeu de données haute précision pour effectuer l'entraînement final à une résolution de 720p, garantissant que la reproduction des détails et la fluidité des mouvements de la vidéo générée atteignent le meilleur niveau.

Grâce aux puissantes capacités du modèle de génération vidéo à partir d'images clés de début et de fin de Tongyi Wanxiang, il peut non seulement reproduire parfaitement les détails des images d'entrée, mais aussi générer des vidéos avec des mouvements vifs et réalistes. Actuellement, le modèle de génération vidéo à partir d'images clés de début et de fin de Tongyi Wanxiang est disponible en open source sur GitHub. Nous invitons les développeurs et les créateurs à l'essayer et à nous faire part de leurs précieux commentaires. Voici les adresses open source :

- GitHub : https://github.com/Wan-Video/Wan2.1

- Hugging Face : https://huggingface.co/Wan-AI/Wan2.1-FLF2V-14B-720P

- Modelscope : https://www.modelscope.cn/models/Wan-AI/Wan2.1-FLF2V-14B-720P