O líder da área de geração de vídeos de inteligência artificial na China, Vidu, anunciou recentemente uma grande atualização para seu modelo Q1, apresentando uma nova função chamada "Referência para Vídeo" (Reference-to-Video), que permite aos usuários carregar até sete imagens de referência e gerar vídeos de 1080p com alta consistência visual. Essa funcionalidade rompeu os gargalos tradicionais na geração de vídeos de IA em múltiplos cenários e consistência de múltiplos sujeitos, oferecendo aos criadores uma flexibilidade e liberdade criativa sem precedentes.
Referência para Vídeo: Sete Imagens para Desbloquear Narrativas Complexas
A função "Referência para Vídeo" do Vidu Q1 é o destaque principal desta atualização. Os usuários podem carregar até sete imagens de referência, incluindo elementos como pessoas, cenários e objetos, combinando-as com dicas de texto para gerar vídeos de alta qualidade. O Vidu Q1 utiliza tecnologia avançada de fusão semântica para garantir que os elementos de várias imagens sejam mantidos com alta consistência no vídeo, evitando problemas comuns na geração de vídeos de IA tradicional, como rupturas de cenário ou distorções de personagens.
Por exemplo, os usuários podem carregar uma foto de uma pessoa, um fundo da floresta e uma imagem de um animal, inserindo a dica: "Uma mulher toca guitarra na floresta, um corvo pousa em uma árvore." O Vidu Q1 pode gerar inteligentemente um vídeo contendo a ação de tocar a guitarra, o ambiente da floresta e o corvo, com detalhes visuais como textura da roupa, luz e sombra do fundo e ações do animal extremamente realistas. Essa funcionalidade fornece uma ferramenta poderosa para criadores de animações, vídeos curtos e anúncios, reduzindo significativamente a barreira de produção em cenários complexos.
Consistência de Múltiplos Sujeitos: Criando Experiências Visuais Contínuas
A tecnologia de consistência de múltiplos sujeitos (Multiple-Entity Consistency) do Vidu Q1 é uma das principais vantagens competitivas. Os usuários podem carregar diferentes tipos de imagens de referência (como personagens, objetos e ambientes) para gerar vídeos que contenham interações entre múltiplos sujeitos, mantendo as características de cada sujeito estáveis durante todo o vídeo. Por exemplo, ao carregar uma foto de um personagem, uma roupa com padrões e uma imagem de uma bicicleta, o Vidu Q1 pode gerar um vídeo contínuo onde o personagem veste a roupa especificada e pedala a bicicleta, com detalhes como padrões e formato da bicicleta correspondendo estreitamente às imagens de referência.