A Alibaba lançou oficialmente esta noite o modelo de geração de vídeo "Tongyi Wanxiang Wan 2.2", com esta release incluindo três modelos principais: modelo de geração de vídeo a partir de texto (Wan 2.2-T2V-A14B), modelo de geração de vídeo a partir de imagem (Wan 2.2-I2V-A14B) e modelo de geração de vídeo unificado (Wan 2.2-IT2V-5B), marcando uma grande ruptura na tecnologia de geração de vídeo.

Arquitetura MoE inédita na indústria, eficiência computacional aumentada em 50%

O Tongyi Wanxiang 2.2 foi o primeiro a introduzir a arquitetura MoE (Mixture of Experts) nos modelos de difusão de geração de vídeo, resolvendo efetivamente o problema do consumo excessivo de recursos computacionais causado pelo comprimento excessivo dos tokens durante o processamento de vídeos. Os modelos de geração de vídeo a partir de texto e imagem possuem um total de parâmetros de 27B, com 14B ativos, sendo os primeiros modelos de geração de vídeo da indústria a utilizar a arquitetura MoE.

A arquitetura é composta por modelos especialistas de alta e baixa taxa de ruído, responsáveis respectivamente pelo layout geral do vídeo e pela conclusão das partes detalhadas. Em comparação com modelos de tamanho semelhante, pode economizar cerca de 50% do consumo de recursos computacionais, ao mesmo tempo que apresenta melhorias significativas nas dimensões como geração de movimentos complexos, interação entre personagens e expressão estética.

8b2342e55b84f6d6618666509c5f186.png

Sistema de controle estético cinematográfico inovador

Um dos destaques do Wan 2.2 é o sistema de controle estético cinematográfico "inovador", alcançando níveis profissionais de filmes em aspectos como luz, cor, composição e microexpressões. Os usuários podem gerar automaticamente cenas românticas com pôr do sol dourado inserindo palavras-chave como "crepúsculo", "luz suave", "iluminação lateral", "tom quente" e "composição central"; enquanto combinações como "tom frio", "luz dura", "equilíbrio de composição" e "ângulo baixo" podem gerar efeitos próximos aos de filmes científicos.

bc3ffbfed53292d1a262d390a07fa44.png

Modelo unificado de 5B compatível com placas de vídeo para consumo

O Tongyi Wanxiang também abriu o código de um modelo unificado de geração de vídeo de pequeno tamanho, de 5B, que suporta simultaneamente funções de geração de vídeo a partir de texto e imagem. Esse modelo utiliza uma arquitetura 3D VAE com alta taxa de compressão, tendo uma razão de compressão temporal e espacial de 4×16×16, e uma taxa de compressão de informação de até 64, ambas alcançando o nível mais alto entre modelos abertos.

O modelo requer apenas 22G de memória de vídeo (uma placa de vídeo para uso pessoal) para gerar vídeos de alta definição de 5 segundos em alguns minutos, sendo o modelo básico mais rápido atualmente para geração de 24 quadros por segundo e resolução de 720P, reduzindo significativamente a barreira técnica para a geração de vídeos com IA.

978f6ec7fb1884b9fc82c6f8d9108d5.png

Acesso aberto por múltiplos canais

Os desenvolvedores podem baixar os modelos e o código no GitHub, HuggingFace e comunidade Mota, as empresas podem chamar a API do modelo através do Alibaba Cloud BaiLian, e os usuários comuns também podem experimentar diretamente no site oficial do Tongyi Wanxiang e no aplicativo Tongyi.