A Alibaba anunciou recentemente o lançamento em código aberto de seu mais recente modelo de geração de vídeo de quadros inicial e final, o Wan2.1-FLF2V-14B, que suporta a geração de vídeos de alta definição de 720p com 5 segundos de duração. Este modelo, com sua inovadora tecnologia de controle de quadros inicial e final, tem atraído muita atenção e traz novas possibilidades para o campo da geração de vídeo com IA. De acordo com o AIbase, o modelo foi lançado em fevereiro de 2025 nas plataformas GitHub e Hugging Face, estando disponível gratuitamente para desenvolvedores, pesquisadores e empresas em todo o mundo, marcando mais um importante marco na construção do ecossistema de IA de código aberto da Alibaba.

image.png

Funcionalidades principais: Conduzido por quadros inicial e final, gera vídeos fluidos em alta definição

O Wan2.1-FLF2V-14B usa os quadros inicial e final como condições de controle. Basta o usuário fornecer duas imagens, e o modelo gera automaticamente um vídeo de 5 segundos com resolução de 720p. O AIbase observou que o vídeo gerado apresenta excelente fluidez de movimento e transição entre os quadros inicial e final, com alta fidelidade dos detalhes da imagem em relação às imagens de referência e uma consistência de conteúdo significativamente melhorada. Em comparação com modelos tradicionais de geração de vídeo, este modelo, por meio de controle preciso das condições, resolve problemas comuns em vídeos longos, como tremores e desvios de conteúdo, oferecendo uma solução eficiente para a criação de vídeos de alta qualidade.

Destaques técnicos: CLIP e DiT integrados para aumentar a estabilidade da geração

De acordo com a análise do AIbase, o Wan2.1-FLF2V-14B utiliza uma tecnologia avançada de controle de condições de quadros inicial e final, com inovações centrais em:

Extração de recursos semânticos CLIP: O modelo CLIP extrai informações semânticas dos quadros inicial e final, garantindo que o vídeo gerado seja altamente consistente com as imagens de entrada em termos de conteúdo visual.

Mecanismo de atenção cruzada: As características dos quadros inicial e final são injetadas no processo de geração do Diffusion Transformer (DiT), aumentando a estabilidade da imagem e a coerência da sequência temporal.

Treinamento baseado em dados: O modelo foi treinado em um vasto conjunto de dados contendo 150 milhões de vídeos e 1 bilhão de imagens, permitindo a geração de conteúdo dinâmico que obedece às leis físicas reais.

A combinação dessas tecnologias faz com que o Wan2.1-FLF2V-14B se destaque na geração de cenas de movimento complexas, sendo especialmente adequado para aplicações criativas que exigem transições de alta fidelidade.

Ampla aplicação: Potenciando a criação de conteúdo e a pesquisa

O lançamento em código aberto do Wan2.1-FLF2V-14B oferece amplas perspectivas de aplicação em diversos setores. O AIbase listou os principais cenários de aplicação:

Cinema e publicidade: Geração rápida de vídeos de transição de alta qualidade, reduzindo os custos de pós-produção.

Desenvolvimento de jogos: Geração de animações dinâmicas para cenas de jogos, aumentando a eficiência do desenvolvimento.

Educação e pesquisa: Permite que os pesquisadores explorem a tecnologia de geração de vídeo e desenvolvam novos aplicativos de IA.

Criação personalizada: Usuários comuns podem gerar vídeos curtos personalizados com entradas simples, enriquecendo o conteúdo das mídias sociais.

Vale ressaltar que o modelo suporta a geração de prompts em chinês, apresentando um desempenho ainda melhor em cenários chineses, demonstrando sua capacidade de adaptação a ambientes multilíngues.

Facilidade de uso: Compatível com hardware de consumo

O Wan2.1-FLF2V-14B demonstra alta versatilidade em termos de requisitos de hardware. O AIbase descobriu que, apesar de seu tamanho considerável de 1,4 bilhão de parâmetros, o modelo, por meio de otimizações, pode ser executado em dispositivos com GPUs de consumo como a RTX4090, com uma necessidade de memória de vídeo de apenas 8,19 GB. Gerar um vídeo de 5 segundos com resolução de 480p leva cerca de 4 minutos, enquanto o tempo de geração de vídeos de 720p também permanece em uma faixa razoável. Além disso, o modelo fornece um guia de implantação detalhado, e os usuários podem iniciar rapidamente usando o seguinte comando:

python

python generate.py --task flf2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-FLF2V-14B --first_frame examples/first.jpg --last_frame examples/last.jpg --prompt "Uma transição suave de uma praia ensolarada para uma noite estrelada"

A comunidade de código aberto também fornece uma interface web baseada em Gradio, reduzindo ainda mais a dificuldade de uso para usuários não técnicos.

Reação da comunidade e perspectivas futuras

Desde seu lançamento, o Wan2.1-FLF2V-14B tem gerado grande entusiasmo na comunidade de código aberto. Os desenvolvedores elogiaram sua qualidade de geração, compatibilidade de hardware e estratégia de código aberto. O AIbase observou que a comunidade já começou a desenvolver o modelo secundariamente, explorando recursos mais complexos de edição de vídeo, como a geração de legendas dinâmicas e dublagem multilíngue. No futuro, a Alibaba planeja otimizar ainda mais o modelo para suportar resoluções mais altas (como 8K) e vídeos de maior duração, além de expandir suas aplicações em áreas como vídeo para áudio (V2A).

Endereço do projeto: https://github.com/Wan-Video/Wan2.1