El 19 de septiembre de 2025, Alibaba Cloud anunció que el modelo de generación de acciones nuevo, Wan2.2-Animate, está ahora disponible como código abierto. Este modelo puede impulsar fotos de personas, personajes animados y animales, y se aplica ampliamente en la creación de videos cortos, generación de plantillas de baile y producción de animaciones. Los usuarios pueden descargar el modelo y el código en GitHub, HuggingFace y la comunidad Mota, o pueden llamar a la API a través de la plataforma Alibaba Cloud BaiLian o probar directamente en el sitio web de Tongyi Wanxiang.

El modelo Wan2.2-Animate es el resultado de una mejora integral del modelo anterior, Animate Anyone, con mejoras significativas en indicadores como la coherencia de las personas y la calidad de generación, al mismo tiempo que admite dos modos: imitación de acciones y representación de roles. En el modo de imitación de personajes, al introducir una imagen del personaje y un video de referencia, el modelo puede transferir las acciones y expresiones del personaje del video a la imagen, otorgando así dinamismo a la imagen. Mientras que en el modo de representación de personajes, el modelo puede reemplazar al personaje del video por el personaje de la imagen, manteniendo al mismo tiempo las acciones, expresiones y entorno del video original.

Captura de pantalla de WeChat_20250919144208.png

El equipo de Tongyi Wanxiang ha construido un conjunto de datos a gran escala de videos de personas que incluyen hablar, expresiones faciales y movimientos corporales, y lo ha entrenado posteriormente basándose en el modelo de generación de videos de imágenes de Tongyi Wanxiang. Wan2.2-Animate normaliza la información del personaje, la información del entorno y las acciones en un formato de representación uniforme, logrando así que un solo modelo sea compatible con dos modos de razonamiento. Para los movimientos corporales y las expresiones faciales, el modelo utiliza señales óseas e características implícitas respectivamente, junto con un módulo de redirección de acciones, para lograr una reproducción precisa de las acciones y expresiones. En el modo de reemplazo, el equipo también diseñó un LoRA independiente de fusión de iluminación, utilizado para garantizar un efecto perfecto de fusión de iluminación.

Los resultados de pruebas muestran que Wan2.2-Animate supera a modelos de código abierto como StableAnimator y LivePortrait en indicadores clave como la calidad de generación de videos, la coherencia del sujeto y la pérdida percibida, convirtiéndose en el modelo de generación de acciones con mejor rendimiento actual. En evaluaciones subjetivas humanas, Wan2.2-Animate incluso supera a modelos de código cerrado como Runway Act-two.

  • GitHub: https://github.com/Wan-Video/Wan2.2

  • Comunidad Mota: https://modelscope.cn/models/Wan-AI/Wan2.2-Animate-14B

  • HuggingFace: https://huggingface.co/Wan-AI/Wan2.2-Animate-14B