Não se preocupe com as cobranças do Kuling, uma nova ferramenta gratuita de geração de vídeo chegou. A Vidu, o modelo de geração de vídeo da Shengshu Technology, que tem chamado muita atenção, foi oficialmente lançado globalmente. Os usuários podem se registrar e fazer login diretamente com seu e-mail, sem precisar esperar na fila de aprovação. Após o registro bem-sucedido, os usuários recebem 80 pontos.
Este gerador de vídeo com IA não apenas possui recursos completos, mas também é fácil de usar. Os usuários podem gerar facilmente vídeos em alta definição de 4 ou 8 segundos, com resolução de até 1080P, atendendo a diversas necessidades de produção de vídeo de alto padrão.
Destaques principais da Vidu:
Geração rápida: A Vidu alcançou a velocidade de inferência mais rápida do setor, gerando um vídeo de 4 segundos em apenas 30 segundos, o dobro da velocidade dos concorrentes.
Alta fidelidade: Seja em estilo anime ou realista, a Vidu gera imagens vívidas e realistas, com movimentos de personagens naturais e fluidos, sem distorções mesmo em movimentos amplos.
Consistência de personagem: A Vidu suporta a função de consistência de personagem. Após o upload de uma imagem de personagem, é possível especificar que o personagem realize qualquer ação em qualquer cenário, facilitando a criação de memes e emojis.
Suporte a múltiplos estilos: Além do estilo realista, a Vidu também suporta a geração de vídeos em estilo anime, com um traço que lembra o de Hayao Miyazaki, repleto de imaginação.
Conversão direta de texto para vídeo: Graças à inovação na arquitetura subjacente, a Vidu oferece uma sensação de "tomada única", gerando o vídeo de forma contínua do início ao fim, sem marcas de interpolação.
Ampla gama de aplicações: Desde a produção de jogos e pós-produção de filmes até educação e treinamento, a Vidu oferece suporte poderoso.
Em comparação com produtos como Kuling e Luma, a Vidu se destaca principalmente pela introdução de dois recursos exclusivos: consistência de personagem e estilo anime.
Aqui, a AIbase usou diretamente ilustrações planas geradas anteriormente para teste. Esses tipos de imagens são difíceis de gerar em vídeo em plataformas como Kuling, com rostos que tendem a distorcer facilmente.
A interface da Vidu é simples. Basta fazer o upload da imagem e selecionar o uso da imagem. Neste caso, não pretendi alterar o fundo original da imagem, escolhendo usá-la como quadro inicial e clicando em "gerar".
Prompt: Um menino brincando alegremente em uma poça d'água, com a chuva ficando cada vez mais forte.
Resultado do teste:
Podemos ver que a Vidu é relativamente melhor que o Kuling na geração de vídeos em estilo anime, com movimentos de personagens normais e sem muitas distorções. Exceto pelo último quadro, que está um pouco fora do prompt, a parte anterior é utilizável.
Para verificar a capacidade da Vidu em anime, a AIbase também usou um "desafio clássico": personagens de anime em estilo chinês antigo. Ontem, testamos esta imagem no Kuling e Luma, e os resultados não foram muito satisfatórios. Personagens de anime em estilo chinês antigo sempre foram um desafio para modelos de geração de vídeo.
Prompt: O menino ajusta o chapéu e sorri de repente.
Resultado do teste:
Podemos ver que o processo de animação do personagem em estilo chinês antigo é relativamente coerente, e as mãos e o rosto não estão muito distorcidos. No entanto, o personagem ficou um pouco feio. Em comparação com o Kuling, a Vidu mantém uma boa qualidade na conversão de ilustrações em estilo chinês antigo para vídeo.
A Vidu também pode lidar facilmente com imagens de modelos 3D:
Prompt: Um adorável dragão robô brincando com bolhas.
Personagens de anime com estilo de desenho à mão também não são problema para a Vidu:
Prompt: Um casal se beijando.
Teste de consistência de personagem:
Aqui, a AIbase escolheu uma imagem de uma bela mulher com tulipas gerada anteriormente como imagem de teste:
Resultado da geração:
Prompt: Uma garota vestindo um Hanfu da dinastia Song andando em um beco em Hangzhou.
A AIbase testou vários vídeos e, atualmente, o desempenho da Vidu em termos de consistência de personagem é instável, com vídeos gerados mais embaçados e personagens que às vezes distorcem.
Vale notar que, ao contrário do Kuling, a Vidu não suporta várias tarefas simultâneas. Se um vídeo ainda não foi concluído, a próxima tarefa de geração de vídeo não pode ser iniciada.
Embora a propaganda oficial diga que a Vidu leva apenas 30 segundos para gerar um vídeo de 4 segundos, nos testes da AIbase, a geração de um vídeo levou pelo menos 2 ou 3 minutos. No entanto, ainda é significativamente mais rápido que o Kuling e o Luma.
Interessados podem testar por conta própria. Endereço do produto: https://top.aibase.com/tool/viduguanwang
A Vidu foi desenvolvida por uma equipe liderada pelo professor Zhu Jun da Universidade Tsinghua, baseada na arquitetura U-ViT totalmente desenvolvida internamente. Esta arquitetura é a primeira do mundo a integrar Diffusion e Transformer, proposta antes da arquitetura DiT usada pelo Sora.
A inovação da Vidu reside em sua capacidade de realizar uma conversão direta e contínua de texto para vídeo, evitando a interpolação e a junção de etapas tradicionais de processamento, resultando em vídeos mais suaves e uma sensação mais natural.
A Shengshu Technology foi fundada em março de 2023 e sua equipe é composta por membros-chave do Instituto de Pesquisa de Inteligência Artificial da Universidade Tsinghua. Eles possuem vasta experiência e capacidade em pesquisa e desenvolvimento de modelos de linguagem grandes multimodais. Desde sua fundação em 2023, a empresa recebeu o reconhecimento de instituições industriais conhecidas, como o Grupo Ant e o Qiming Venture Partners, e concluiu um financiamento de várias centenas de milhões de yuans, tornando-se a startup com maior avaliação no setor de modelos de linguagem grandes multimodais na China.