Alibaba lança o modelo de geração de vídeo Wan2.1-FLF2V-14B de alta definição 720p com frames iniciais e finais

AIbase基地

Publicado emNotícias e Informações de IA · 9 minutos de leitura · Apr 18, 2025

6

A Alibaba anunciou recentemente o lançamento em código aberto de seu mais recente modelo de geração de vídeo de quadros inicial e final, o Wan2.1-FLF2V-14B, que suporta a geração de vídeos de alta definição de 720p com 5 segundos de duração. Este modelo, com sua inovadora tecnologia de controle de quadros inicial e final, tem atraído muita atenção e traz novas possibilidades para o campo da geração de vídeo com IA. De acordo com o AIbase, o modelo foi lançado em fevereiro de 2025 nas plataformas GitHub e Hugging Face, estando disponível gratuitamente para desenvolvedores, pesquisadores e empresas em todo o mundo, marcando mais um importante marco na construção do ecossistema de IA de código aberto da Alibaba.

Funcionalidades principais: Conduzido por quadros inicial e final, gera vídeos fluidos em alta definição

O Wan2.1-FLF2V-14B usa os quadros inicial e final como condições de controle. Basta o usuário fornecer duas imagens, e o modelo gera automaticamente um vídeo de 5 segundos com resolução de 720p. O AIbase observou que o vídeo gerado apresenta excelente fluidez de movimento e transição entre os quadros inicial e final, com alta fidelidade dos detalhes da imagem em relação às imagens de referência e uma consistência de conteúdo significativamente melhorada. Em comparação com modelos tradicionais de geração de vídeo, este modelo, por meio de controle preciso das condições, resolve problemas comuns em vídeos longos, como tremores e desvios de conteúdo, oferecendo uma solução eficiente para a criação de vídeos de alta qualidade.

Destaques técnicos: CLIP e DiT integrados para aumentar a estabilidade da geração

De acordo com a análise do AIbase, o Wan2.1-FLF2V-14B utiliza uma tecnologia avançada de controle de condições de quadros inicial e final, com inovações centrais em:

Extração de recursos semânticos CLIP: O modelo CLIP extrai informações semânticas dos quadros inicial e final, garantindo que o vídeo gerado seja altamente consistente com as imagens de entrada em termos de conteúdo visual.

Mecanismo de atenção cruzada: As características dos quadros inicial e final são injetadas no processo de geração do Diffusion Transformer (DiT), aumentando a estabilidade da imagem e a coerência da sequência temporal.

Treinamento baseado em dados: O modelo foi treinado em um vasto conjunto de dados contendo 150 milhões de vídeos e 1 bilhão de imagens, permitindo a geração de conteúdo dinâmico que obedece às leis físicas reais.

A combinação dessas tecnologias faz com que o Wan2.1-FLF2V-14B se destaque na geração de cenas de movimento complexas, sendo especialmente adequado para aplicações criativas que exigem transições de alta fidelidade.

Ampla aplicação: Potenciando a criação de conteúdo e a pesquisa

O lançamento em código aberto do Wan2.1-FLF2V-14B oferece amplas perspectivas de aplicação em diversos setores. O AIbase listou os principais cenários de aplicação:

Cinema e publicidade: Geração rápida de vídeos de transição de alta qualidade, reduzindo os custos de pós-produção.

Desenvolvimento de jogos: Geração de animações dinâmicas para cenas de jogos, aumentando a eficiência do desenvolvimento.

Educação e pesquisa: Permite que os pesquisadores explorem a tecnologia de geração de vídeo e desenvolvam novos aplicativos de IA.

Criação personalizada: Usuários comuns podem gerar vídeos curtos personalizados com entradas simples, enriquecendo o conteúdo das mídias sociais.

Vale ressaltar que o modelo suporta a geração de prompts em chinês, apresentando um desempenho ainda melhor em cenários chineses, demonstrando sua capacidade de adaptação a ambientes multilíngues.

Facilidade de uso: Compatível com hardware de consumo

O Wan2.1-FLF2V-14B demonstra alta versatilidade em termos de requisitos de hardware. O AIbase descobriu que, apesar de seu tamanho considerável de 1,4 bilhão de parâmetros, o modelo, por meio de otimizações, pode ser executado em dispositivos com GPUs de consumo como a RTX4090, com uma necessidade de memória de vídeo de apenas 8,19 GB. Gerar um vídeo de 5 segundos com resolução de 480p leva cerca de 4 minutos, enquanto o tempo de geração de vídeos de 720p também permanece em uma faixa razoável. Além disso, o modelo fornece um guia de implantação detalhado, e os usuários podem iniciar rapidamente usando o seguinte comando:

python
python generate.py --task flf2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-FLF2V-14B --first_frame examples/first.jpg --last_frame examples/last.jpg --prompt "Uma transição suave de uma praia ensolarada para uma noite estrelada"

A comunidade de código aberto também fornece uma interface web baseada em Gradio, reduzindo ainda mais a dificuldade de uso para usuários não técnicos.

Reação da comunidade e perspectivas futuras

Desde seu lançamento, o Wan2.1-FLF2V-14B tem gerado grande entusiasmo na comunidade de código aberto. Os desenvolvedores elogiaram sua qualidade de geração, compatibilidade de hardware e estratégia de código aberto. O AIbase observou que a comunidade já começou a desenvolver o modelo secundariamente, explorando recursos mais complexos de edição de vídeo, como a geração de legendas dinâmicas e dublagem multilíngue. No futuro, a Alibaba planeja otimizar ainda mais o modelo para suportar resoluções mais altas (como 8K) e vídeos de maior duração, além de expandir suas aplicações em áreas como vídeo para áudio (V2A).

Endereço do projeto: https://github.com/Wan-Video/Wan2.1

Wan2.1-FLF2V-14B Alibaba Modelo de geração de vídeo com frames iniciais e finais Geração de vídeo com IA

Este artigo é do AIbase Daily

Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.

—— Criado pelo Grupo AIbase Daily

Notícias de IA

IA Diário

Linha do Tempo da IA

Al hardware

Casos Recentes

Coleção de Imagens

Coleção de Vídeos

Coleção de Áudios

Coleção de Conteúdo

Tutoriais Recentes

Ranking de Produtos de IA

Ranking de Crescimento de Tráfego de IA

Ranking de Queda de Tráfego de IA

Ranking Semanal de IA

Estados Unidos

China

Índia

Brasil

Geração de Imagens

Assistente Pessoal

Geração de Personagens

Geração de Vídeos

Ranking de Projetos de IA

Ranking de Crescimento de Projetos de IA

Ranking de Desenvolvedores de IA

Ranking de Organizações de IA

Deepseek

TTS

LLM

ChatGPT

Visão Geral

Alibaba lança o modelo de geração de vídeo Wan2.1-FLF2V-14B de alta definição 720p com frames iniciais e finais

AIbase基地

Este artigo é do AIbase Daily