A Volcano Engine Technology Co., Ltd. anunciou o lançamento do modelo de geração de vídeo Doubao na exposição de inovação em IA de 2024, o mais novo membro de sua família de grandes modelos.

O presidente da Volcano Engine, Tan Dai, afirmou que o modelo de geração de vídeo Doubao possui diversas performances avançadas na geração de vídeo, incluindo compreensão semântica precisa, interação multi-ação e multi-sujeito, poderosos efeitos dinâmicos e capacidade de geração de múltiplas lentes consistentes.

微信截图_20240924152238.png

O modelo consegue entender e seguir instruções complexas, realizar interações entre vários sujeitos e realizar transições impressionantes entre grandes movimentos do sujeito do vídeo e as lentes. Além disso, ele consegue manter a consistência em múltiplas transições de lentes, contando uma história completa em 10 segundos e suportando diversos estilos e proporções, como preto e branco, animação 3D, pintura chinesa, etc.

Ao mesmo tempo, o modelo suporta diversos estilos, incluindo preto e branco, animação 3D, animação 2D e pintura chinesa, e pode se adaptar a diversas proporções, como 1:1, 3:4, 4:3, 16:9, 9:16 e 21:9, para se adaptar a diferentes terminais e proporções de tela.

O modelo de geração de vídeo Doubao não apenas melhora a alta fidelidade da qualidade de imagem do vídeo, mas também permite transições impressionantes no vídeo entre grandes movimentos do sujeito e as lentes, possuindo recursos de linguagem de lentes ricas, como zoom, rotação, panorâmica, escala e rastreamento de alvo.

O grande modelo de geração de vídeo Doubao inclui principalmente duas versões: Doubao - Geração de Vídeo PixelDance e Doubao - Geração de Vídeo - Seaweed.

Acessando a Volcano Engine, você pode ver as versões PixelDance e Seaweed do Doubao - Geração de Vídeo.

image.png

I. Doubao - Geração de Vídeo PixelDance

PixelDance V1.4 é um grande modelo de geração de vídeo de estrutura DiT desenvolvido pela equipe de pesquisa ByteDance, suportando simultaneamente a geração de vídeo a partir de texto e imagem, podendo gerar trechos de vídeo de até 10 segundos de duração.

Este modelo permite que os usuários insiram texto e imagens para gerar vídeos. O modelo possui excelente capacidade de compreensão semântica e pode gerar rapidamente trechos de vídeo de alta qualidade, podendo ser aplicado em criação de filmes, publicidade e mídia, entre outros cenários.

Segue abaixo exemplos de geração da versão PixelDance:

Compreensão semântica precisa

PixelDance V1.4 pode seguir prompts complexos, desbloqueando instruções de ações multi-shot temporais e a capacidade de interação entre vários sujeitos.

prompt: Um homem entra na cena, a mulher se vira para olhá-lo, eles se abraçam, as pessoas ao redor se movimentam no fundo.

Dinâmica poderosa e transições impressionantes

Suporta uma grande variedade de linguagem de lentes, controlando a perspectiva de forma flexível, proporcionando uma experiência do mundo real.

Geração de múltiplas lentes consistente

Possui a capacidade de gerar curtas-metragens com múltiplas lentes de forma intuitiva, superando o desafio técnico da consistência em múltiplas transições de lentes. Pode contar uma história com começo, meio e fim em 10 segundos. Em um único prompt, realiza múltiplas transições de lentes, mantendo a consistência do sujeito, estilo e atmosfera.

Compatibilidade com múltiplos estilos e proporções

A estrutura Transformer otimizada em profundidade melhorou significativamente a capacidade de generalização da geração de vídeo, suportando diversos estilos, incluindo preto e branco, animação 3D, animação 2D, pintura chinesa, aquarela, guache, etc., e seis proporções: 1:1, 3:4, 4:3, 16:9, 9:16 e 21:9.

image.png

II. Doubao - Geração de Vídeo - Seaweed

Este modelo suporta dois métodos de geração de vídeo: geração de vídeo a partir de texto e geração de vídeo a partir de imagem. Esta tecnologia é baseada na estrutura Transformer, utilizando um espaço latente de compressão espaço-temporal para treinamento. O modelo suporta nativamente a geração de múltiplas resoluções, adaptando-se a telas horizontais e verticais e podendo se adaptar e manter a fidelidade de acordo com a resolução da imagem de alta definição inserida pelo usuário. A saída padrão é resolução 720p, 24fps e duração de 5 segundos, podendo ser estendida dinamicamente para 20-30 segundos.

Segue abaixo exemplos de geração da versão Seaweed:

Realismo extremo, detalhes ricos e sutis

prompt: Um panda gigante está desfrutando de um fondue fumegante.

Cores e iluminação profissionais

Fluidez dinâmica

O lançamento do modelo de geração de vídeo Doubao deve trazer inovação e aumento de eficiência para diversos setores, como marketing de e-commerce, educação por meio de animação, turismo urbano e micro-roteiros (vídeos musicais, curtas-metragens, séries, etc.). A Volcano Engine afirma que o lançamento deste modelo acelerará significativamente a inovação de aplicativos AIGC.

A Volcano Engine se compromete a continuar promovendo atualizações e iterações das capacidades do modelo, explorando o uso das capacidades do modelo em mais ocasiões e impulsionando a inteligência em nuvem para as empresas.

Dados mostram que, até setembro, o uso diário de tokens do grande modelo Doubao já ultrapassou 1,3 trilhão, com um crescimento geral de tokens superior a 10 vezes em 4 meses. No quesito multimídia, o modelo Doubao de geração de imagem a partir de texto gera diariamente 50 milhões de imagens. Além disso, o Doubao atualmente processa 850.000 horas de áudio diariamente.