ByteDance lança o modelo de geração de vídeo Doubao, com suporte para vídeos de 10 segundos e consistência em múltiplas câmeras

AIbase基地

Publicado emNotícias e Informações de IA · 10 minutos de leitura · Sep 24, 2024

1.7k

A Volcano Engine Technology Co., Ltd. anunciou o lançamento do modelo de geração de vídeo Doubao na exposição de inovação em IA de 2024, o mais novo membro de sua família de grandes modelos.

O presidente da Volcano Engine, Tan Dai, afirmou que o modelo de geração de vídeo Doubao possui diversas performances avançadas na geração de vídeo, incluindo compreensão semântica precisa, interação multi-ação e multi-sujeito, poderosos efeitos dinâmicos e capacidade de geração de múltiplas lentes consistentes.

微信截图_20240924152238.png

O modelo consegue entender e seguir instruções complexas, realizar interações entre vários sujeitos e realizar transições impressionantes entre grandes movimentos do sujeito do vídeo e as lentes. Além disso, ele consegue manter a consistência em múltiplas transições de lentes, contando uma história completa em 10 segundos e suportando diversos estilos e proporções, como preto e branco, animação 3D, pintura chinesa, etc.

Ao mesmo tempo, o modelo suporta diversos estilos, incluindo preto e branco, animação 3D, animação 2D e pintura chinesa, e pode se adaptar a diversas proporções, como 1:1, 3:4, 4:3, 16:9, 9:16 e 21:9, para se adaptar a diferentes terminais e proporções de tela.

O modelo de geração de vídeo Doubao não apenas melhora a alta fidelidade da qualidade de imagem do vídeo, mas também permite transições impressionantes no vídeo entre grandes movimentos do sujeito e as lentes, possuindo recursos de linguagem de lentes ricas, como zoom, rotação, panorâmica, escala e rastreamento de alvo.

O grande modelo de geração de vídeo Doubao inclui principalmente duas versões: Doubao - Geração de Vídeo PixelDance e Doubao - Geração de Vídeo - Seaweed.

Acessando a Volcano Engine, você pode ver as versões PixelDance e Seaweed do Doubao - Geração de Vídeo.

I. Doubao - Geração de Vídeo PixelDance

PixelDance V1.4 é um grande modelo de geração de vídeo de estrutura DiT desenvolvido pela equipe de pesquisa ByteDance, suportando simultaneamente a geração de vídeo a partir de texto e imagem, podendo gerar trechos de vídeo de até 10 segundos de duração.

Este modelo permite que os usuários insiram texto e imagens para gerar vídeos. O modelo possui excelente capacidade de compreensão semântica e pode gerar rapidamente trechos de vídeo de alta qualidade, podendo ser aplicado em criação de filmes, publicidade e mídia, entre outros cenários.

Segue abaixo exemplos de geração da versão PixelDance:

Compreensão semântica precisa

PixelDance V1.4 pode seguir prompts complexos, desbloqueando instruções de ações multi-shot temporais e a capacidade de interação entre vários sujeitos.

prompt: Um homem entra na cena, a mulher se vira para olhá-lo, eles se abraçam, as pessoas ao redor se movimentam no fundo.

Dinâmica poderosa e transições impressionantes

Suporta uma grande variedade de linguagem de lentes, controlando a perspectiva de forma flexível, proporcionando uma experiência do mundo real.

Geração de múltiplas lentes consistente

Possui a capacidade de gerar curtas-metragens com múltiplas lentes de forma intuitiva, superando o desafio técnico da consistência em múltiplas transições de lentes. Pode contar uma história com começo, meio e fim em 10 segundos. Em um único prompt, realiza múltiplas transições de lentes, mantendo a consistência do sujeito, estilo e atmosfera.

Compatibilidade com múltiplos estilos e proporções

A estrutura Transformer otimizada em profundidade melhorou significativamente a capacidade de generalização da geração de vídeo, suportando diversos estilos, incluindo preto e branco, animação 3D, animação 2D, pintura chinesa, aquarela, guache, etc., e seis proporções: 1:1, 3:4, 4:3, 16:9, 9:16 e 21:9.

II. Doubao - Geração de Vídeo - Seaweed

Este modelo suporta dois métodos de geração de vídeo: geração de vídeo a partir de texto e geração de vídeo a partir de imagem. Esta tecnologia é baseada na estrutura Transformer, utilizando um espaço latente de compressão espaço-temporal para treinamento. O modelo suporta nativamente a geração de múltiplas resoluções, adaptando-se a telas horizontais e verticais e podendo se adaptar e manter a fidelidade de acordo com a resolução da imagem de alta definição inserida pelo usuário. A saída padrão é resolução 720p, 24fps e duração de 5 segundos, podendo ser estendida dinamicamente para 20-30 segundos.

Segue abaixo exemplos de geração da versão Seaweed:

Realismo extremo, detalhes ricos e sutis

prompt: Um panda gigante está desfrutando de um fondue fumegante.

Cores e iluminação profissionais

Fluidez dinâmica

O lançamento do modelo de geração de vídeo Doubao deve trazer inovação e aumento de eficiência para diversos setores, como marketing de e-commerce, educação por meio de animação, turismo urbano e micro-roteiros (vídeos musicais, curtas-metragens, séries, etc.). A Volcano Engine afirma que o lançamento deste modelo acelerará significativamente a inovação de aplicativos AIGC.

A Volcano Engine se compromete a continuar promovendo atualizações e iterações das capacidades do modelo, explorando o uso das capacidades do modelo em mais ocasiões e impulsionando a inteligência em nuvem para as empresas.

Dados mostram que, até setembro, o uso diário de tokens do grande modelo Doubao já ultrapassou 1,3 trilhão, com um crescimento geral de tokens superior a 10 vezes em 4 meses. No quesito multimídia, o modelo Doubao de geração de imagem a partir de texto gera diariamente 50 milhões de imagens. Além disso, o Doubao atualmente processa 850.000 horas de áudio diariamente.

Pré-lançamento do OpenAICodex Alpha! Novo modelo de sete níveis revelado, capacidade de programação do GPT-5 melhora significativamente

A OpenAI lança um programa de pré-lançamento do Codex Alpha, convidando desenvolvedores a testar a nova versão do modelo e funcionalidades do Codex antes do lançamento oficial no DevDay2025. Este programa visa permitir que os usuários experimentem antecipadamente as novas tecnologias de assistentes de programação de IA.

Atualização-chave do Synthesia 3.0: apresenta o 'Agente de Vídeo' que interage em tempo real com o público, conversando e respondendo perguntas

O Synthesia lança a versão 3.0 da plataforma de personagens virtuais para vídeos, com uma nova funcionalidade principal chamada 'Agente de Vídeo'. Esses personagens virtuais podem interagir em tempo real com o público nos vídeos, incluindo conversas, respostas a dúvidas e perguntas, além de acesso a informações exclusivas das empresas, aumentando significativamente a utilidade e a autenticidade em cenários como treinamento corporativo e atendimento ao cliente.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Submit Your Model

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Services

AI Search Visibility Checker

AI Model Compatibility Checker

AI Dataset Collection

Intelligent Document Recognition

ByteDance lança o modelo de geração de vídeo Doubao, com suporte para vídeos de 10 segundos e consistência em múltiplas câmeras

AIbase基地

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

CEO da OpenAI elogia o ChatGPT Pulse como seu recurso favorito, mas não descarta a possibilidade de introduzir anúncios no futuro

Relatório da Universidade de Stanford revela o excesso de escrita por IA: um quarto dos releases de empresas apresenta traços de modelos grandes

Jogo de caça ao tesouro da nova coleção de Taylor Swift gera controvérsia: fãs questionam vídeo de divulgação como gerado por IA

AMD assina acordo de chips de bilhões de dólares por anos para fornecer 6 gigawatts de capacidade de computação de IA à OpenAI

Memória Potencializada pela IA: Supermemory recebe 2,6 milhões de dólares em financiamento e constrói uma API de memória para IA genérica

Dia do Desenvolvedor da OpenAI: lançamento importante: plataforma ChatGPT, apresentação de agentes de IA autônomos e modelos de topo

Primeiro grande modelo vertical da indústria de ovinos lançado: o modelo S Wu utiliza a IA para impulsionar a criação inteligente de ovinos

Pré-lançamento do OpenAICodex Alpha! Novo modelo de sete níveis revelado, capacidade de programação do GPT-5 melhora significativamente

Atualização-chave do Synthesia 3.0: apresenta o 'Agente de Vídeo' que interage em tempo real com o público, conversando e respondendo perguntas

Nova versão do Qwen-VL-30B-A3B da Alibaba, com desempenho aprimorado em matemática e processamento de vídeo

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Submit Your Model

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Services​

AI Search Visibility Checker

AI Model Compatibility Checker

AI Dataset Collection

Intelligent Document Recognition

ByteDance lança o modelo de geração de vídeo Doubao, com suporte para vídeos de 10 segundos e consistência em múltiplas câmeras

AIbase基地

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

CEO da OpenAI elogia o ChatGPT Pulse como seu recurso favorito, mas não descarta a possibilidade de introduzir anúncios no futuro

Relatório da Universidade de Stanford revela o excesso de escrita por IA: um quarto dos releases de empresas apresenta traços de modelos grandes

Jogo de caça ao tesouro da nova coleção de Taylor Swift gera controvérsia: fãs questionam vídeo de divulgação como gerado por IA

AMD assina acordo de chips de bilhões de dólares por anos para fornecer 6 gigawatts de capacidade de computação de IA à OpenAI

Memória Potencializada pela IA: Supermemory recebe 2,6 milhões de dólares em financiamento e constrói uma API de memória para IA genérica

Dia do Desenvolvedor da OpenAI: lançamento importante: plataforma ChatGPT, apresentação de agentes de IA autônomos e modelos de topo

Primeiro grande modelo vertical da indústria de ovinos lançado: o modelo S Wu utiliza a IA para impulsionar a criação inteligente de ovinos

Pré-lançamento do OpenAICodex Alpha! Novo modelo de sete níveis revelado, capacidade de programação do GPT-5 melhora significativamente

Atualização-chave do Synthesia 3.0: apresenta o 'Agente de Vídeo' que interage em tempo real com o público, conversando e respondendo perguntas

Nova versão do Qwen-VL-30B-A3B da Alibaba, com desempenho aprimorado em matemática e processamento de vídeo

GEO Services