ChinaZ.com (站长之家) - 17 de junho de 2024: A equipe de IA do Kuaishou, em colaboração com a Universidade de Pequim, superou com sucesso os desafios da geração de vídeos complexos. Eles apresentaram uma nova estrutura chamada VideoTetris, capaz de combinar facilmente vários detalhes como peças de um quebra-cabeça, gerando vídeos de alta dificuldade e com instruções complexas. Essa estrutura superou modelos comerciais como Pika e Gen-2 em tarefas de geração de vídeos complexos.

A estrutura VideoTetris define pela primeira vez a tarefa de geração de vídeos combinatórios, incluindo duas subtarefas: 1) geração de vídeos seguindo instruções combinatórias complexas; 2) geração de vídeos longos seguindo instruções combinatórias progressivas de múltiplos objetos. A equipe descobriu que quase todos os modelos de código aberto e comerciais existentes falharam em gerar vídeos corretos. Por exemplo, com a entrada "um cachorrinho marrom adorável à esquerda e um gato cochilando ao sol à direita", os vídeos gerados geralmente fundiam as informações dos dois objetos, resultando em uma aparência estranha.

QQ截图20240617104639.jpg

Em contraste, o VideoTetris consegue preservar todas as informações de localização e características de detalhes. Na geração de vídeos longos, ele suporta instruções mais complexas, como "uma transição de um esquilo marrom adorável em uma pilha de avelãs para um esquilo marrom adorável e um esquilo branco adorável em uma pilha de avelãs". A sequência do vídeo gerado é consistente com a instrução de entrada, e os dois esquilos podem trocar comida naturalmente.

A estrutura VideoTetris utiliza um método de difusão combinatória espaço-temporal. Primeiro, ele decompõe as instruções de texto no tempo, atribuindo informações de instrução diferentes a diferentes quadros de vídeo. Em seguida, ele decompõe a dimensão espacial em cada quadro, correspondendo diferentes objetos a diferentes áreas do vídeo. Finalmente, ele realiza a combinação através da atenção cruzada espaço-temporal, alcançando uma geração eficiente de instruções combinatórias.

Para gerar vídeos longos de maior qualidade, a equipe também propôs um método aprimorado de pré-processamento de dados de treinamento, tornando a geração de vídeos longos mais dinâmica e estável. Além disso, foi introduzido um mecanismo de atenção de quadro de referência, usando VAE nativo para codificar informações de quadros anteriores, ao contrário da maneira como outros modelos usam a codificação CLIP, obtendo assim melhor consistência de conteúdo.

O resultado otimizado é que os vídeos longos não apresentam mais o fenômeno de descoloração em larga escala, podendo se adaptar melhor a instruções complexas, gerando vídeos mais dinâmicos e naturais. A equipe também introduziu novos indicadores de avaliação VBLIP-VQA e VUnidet, expandindo pela primeira vez o método de avaliação de geração combinatória para a dimensão de vídeo.

Testes experimentais mostraram que, em termos de capacidade de geração de vídeos combinatórios, o desempenho do modelo VideoTetris superou todos os modelos de código aberto, incluindo modelos comerciais como Gen-2 e Pika. O código será totalmente de código aberto.

Endereço do projeto: https://top.aibase.com/tool/videotetris