Le 19 septembre 2025, Alibaba Cloud a annoncé le lancement officiel de Wan2.2-Animate, un nouveau modèle de génération d'actions de la série Tongyi Wanxiang. Ce modèle est capable de faire bouger des photos de personnes, de personnages animés et d'animaux, et est largement utilisé dans la création de courts vidéos, la génération de modèles de danse et la production d'animations. Les utilisateurs peuvent télécharger le modèle et le code sur GitHub, HuggingFace et la communauté Mota, ou appeler l'API via la plateforme Alibaba Cloud BaiLian ou tester directement sur le site Web de Tongyi Wanxiang.

Le modèle Wan2.2-Animate est le résultat d'une amélioration complète par rapport au modèle Animate Anyone précédemment ouvert. Il offre une amélioration significative en termes de cohérence des personnages et de qualité de génération, tout en soutenant deux modes : le mode de reproduction d'actions et le mode de rôle. Dans le mode de reproduction d'actions, en fournissant une image du personnage et une vidéo de référence, le modèle peut transférer les actions et expressions de la vidéo vers le personnage de l'image, donnant ainsi une expression dynamique à l'image. Dans le mode de rôle, le modèle peut remplacer le personnage de la vidéo par le personnage de l'image tout en préservant les actions, expressions et environnement de la vidéo originale.

Capture d'écran WeChat_20250919144208.png

L'équipe Tongyi Wanxiang a construit un grand ensemble de données vidéo de personnages couvrant la parole, les expressions faciales et les mouvements corporels, et a effectué un entraînement ultérieur basé sur le modèle de génération de vidéos à partir d'images de Tongyi Wanxiang. Le modèle Wan2.2-Animate normalise les informations du personnage, de l'environnement et des actions dans un format de représentation uniforme, permettant ainsi à un seul modèle de supporter les deux modes de raisonnement. Concernant les mouvements du corps et les expressions faciales, le modèle utilise respectivement des signaux squelettiques et des caractéristiques implicites, associés à un module de redirigibilité des actions, pour reproduire précisément les actions et expressions. Dans le mode de remplacement, l'équipe a également conçu un LoRA indépendant pour la fusion d'éclairage, afin d'assurer un effet de fusion d'éclairage parfait.

Les résultats des tests montrent que Wan2.2-Animate dépasse les modèles open source tels que StableAnimator et LivePortrait en termes de qualité des vidéos générées, de cohérence du sujet et de perte perceptive, devenant ainsi le modèle de génération d'actions le plus performant actuellement. Dans les évaluations subjectives humaines, Wan2.2-Animate dépasse même les modèles fermés tels que Runway Act-two.

  • GitHub: https://github.com/Wan-Video/Wan2.2

  • Communauté Mota: https://modelscope.cn/models/Wan-AI/Wan2.2-Animate-14B

  • HuggingFace: https://huggingface.co/Wan-AI/Wan2.2-Animate-14B