No campo da geração de vídeos por inteligência artificial recentemente, a ByteDance (a empresa-mãe do TikTok) lançou de forma discreta um novo modelo chamado Seedance1.0, que superou o Veo3 mais recente da Google em avaliações independentes. O Veo3 ganhou atenção pela sua síntese de áudio e ferramentas de nível cinematográfico, mas a força tecnológica do Seedance1.0 impressiona, tornando-se líder na geração de vídeos.
O artigo de pesquisa detalha as inovações do modelo. A equipe da ByteDance desacoplou camadas espaciais e temporais combinando codificação posicional multimodal, permitindo que o modelo execute simultaneamente tarefas de geração de vídeo a partir de texto ou imagem. Essa abordagem suporta transições de cena complexas e narrativas em múltiplos ângulos, mantendo uma temática consistente.
Além disso, o desempenho do Seedance1.0 não seria possível sem a robusta infraestrutura de dados da ByteDance. A equipe construiu um grande conjunto de dados com várias fontes, equipado com anotações bilíngues detalhadas e marcadores ricos de ação e características estáticas, garantindo precisão no conteúdo gerado. Eles também utilizaram uma configuração inovadora de aprendizado por reforço combinando três modelos de recompensa, focando alinhamento básico, qualidade de movimento e estética.
Em testes, o Seedance1.0 superou o Veo3 em várias dimensões. No benchmark SeedVideoBench desenvolvido em colaboração com diretores de cinema, o modelo obteve pontuações mais altas em seguir prompts e realismo de ação. Na tarefa de geração de vídeo a partir de imagens, o Seedance manteve a consistência visual dos quadros de entrada, enquanto o Veo3 apresentou mudanças em iluminação e texturas em alguns casos.
No desempenho de inferência, o Seedance1.0 também se destacou. O modelo pode gerar um vídeo de 1080p com cinco segundos em 41,4 segundos, uma velocidade muito superior aos concorrentes como o Sora, Runway Gen-4 e o Veo3. A ByteDance também menciona avanços significativos na redução de custos e latência, aproximando a geração de vídeo de aplicações em tempo real.
O Seedance1.0 está programado para ser integrado às plataformas Doubao e Jimeng até junho de 2025, visando melhorar significativamente os fluxos de trabalho profissionais e tarefas criativas comuns. Embora o Veo3 tenha chamado atenção ao combinar vídeos reais com som ambiente e diálogos, o Seedance1.0 se destaca em fidelidade visual, estabilidade de movimento e coesão narrativa, embora tenha limitações em capacidades de áudio.
Principais pontos:
🌟 O lançamento do Seedance1.0 superou o Veo3 da Google, tornando-se um novo marco na tecnologia de geração de vídeos.
⚙️ O modelo realiza transições de cena complexas e narrativas em múltiplos ângulos através da codificação posicional multimodal.
⚡ O Seedance1.0 demonstra excelentes resultados em velocidade de geração e consistência visual, prometendo se tornar uma ferramenta essencial para criação profissional em 2025.