A nuvem Alibaba anunciou em 19 de setembro de 2025 que o novo modelo de geração de ações Wan2.2-Animate da Tongyi Wanxiang foi oficialmente aberto ao público. Esse modelo pode impulsionar fotos de pessoas, personagens animados e animais, sendo amplamente aplicado na criação de vídeos curtos, geração de modelos de dança e produção de animações. Os usuários podem baixar o modelo e o código no GitHub, HuggingFace e na comunidade Moba, ou chamar a API através da plataforma Alibaba Cloud BaiLian ou experimentar diretamente no site oficial da Tongyi Wanxiang.
O modelo Wan2.2-Animate é um avanço significativo em relação ao modelo anteriormente aberto Animate Anyone, com melhorias notáveis nos indicadores de consistência da pessoa e qualidade de geração, além de suportar dois modos: imitação de ações e papel de personagem. No modo de imitação de personagem, ao fornecer uma imagem do personagem e um vídeo de referência, o modelo pode transferir as ações e expressões do personagem do vídeo para a imagem, dando à imagem uma expressão dinâmica. Já no modo de interpretação de personagem, o modelo pode substituir o personagem do vídeo pelo da imagem, mantendo as ações, expressões e ambiente do vídeo original.
O time da Tongyi Wanxiang construiu um grande conjunto de dados de vídeos de pessoas que falam, têm expressões faciais e movimentos corporais, e realizou treinamento adicional com base no modelo de geração de vídeos da Tongyi Wanxiang. O Wan2.2-Animate normaliza informações sobre o personagem, o ambiente e as ações em um formato de representação unificado, permitindo que um único modelo funcione com os dois modos de raciocínio. Para os movimentos corporais e expressões faciais, o modelo utiliza sinais esqueléticos e características implícitas, combinando-os com um módulo de redirecionamento de ações, para reproduzir com precisão ações e expressões. No modo de substituição, o time também projetou um LoRA separado para fusão de iluminação, garantindo um perfeito efeito de fusão de iluminação.
Resultados de testes mostram que o Wan2.2-Animate supera modelos open source como StableAnimator e LivePortrait em indicadores-chave como qualidade de geração de vídeo, consistência do assunto e perda perceptual, tornando-se o modelo de geração de ações mais potente até agora. Em avaliações subjetivas humanas, o Wan2.2-Animate superou até modelos fechados como Runway Act-two.
GitHub: https://github.com/Wan-Video/Wan2.2
Comunidade Moba: https://modelscope.cn/models/Wan-AI/Wan2.2-Animate-14B
HuggingFace: https://huggingface.co/Wan-AI/Wan2.2-Animate-14B