Pesquisadores da Universidade Fudan e da Baidu desenvolveram em conjunto um novo modelo de IA chamado Hallo2, capaz de gerar animações de personagens em 4K com duração de horas, controlável com precisão por meio de comandos de voz e texto.

image.png

Tradicionalmente, a geração de animações de personagens de alta qualidade exigia tempo e recursos humanos significativos. O Hallo2 promete mudar esse cenário, revolucionando áreas como produção cinematográfica, assistentes virtuais e desenvolvimento de jogos.

O modelo Hallo2 é baseado em modelos de difusão latente e incorpora uma série de tecnologias inovadoras, incluindo:

Técnica de aumento de dados Patch-drop: Através do obscurecimento aleatório de quadros de movimento, evita-se que o modelo dependa excessivamente das informações visuais dos quadros anteriores, garantindo assim a estabilidade da aparência da animação do personagem em sequências longas.

Técnica de aumento de ruído gaussiano: Adicionando ruído gaussiano aos quadros de movimento, aumenta-se a robustez do modelo contra ruídos de imagem e distorções de movimento, melhorando ainda mais a qualidade e a coerência da animação.

Técnica de previsão de código discreto VQGAN: O modelo VQGAN é expandido para a dimensão temporal e combinado com a técnica de alinhamento temporal para gerar vídeos de alta resolução, garantindo a coerência dos detalhes da imagem no tempo.

Mecanismo de controle de prompt de texto: Através da introdução de um mecanismo de normalização adaptativa de camada, o modelo pode controlar com precisão as expressões e ações dos personagens de acordo com o prompt de texto, tornando a animação mais expressiva e controlável.

QQ20241018-111835.jpg

O desempenho poderoso do modelo Hallo2 foi validado em vários conjuntos de dados públicos, incluindo HDTF, CelebV e o conjunto de dados "Wild" criado pelos pesquisadores. Os resultados experimentais mostram que o Hallo2 supera todos os métodos existentes na geração de animações de personagens de alta qualidade e longa sequência.

O lançamento do modelo Hallo2 marca um novo marco na tecnologia de geração de animações de personagens com IA. No futuro, os pesquisadores planejam otimizar ainda mais a eficiência e a controlabilidade do modelo e explorar suas aplicações em mais áreas.

Endereço do projeto: https://fudan-generative-vision.github.io/hallo2/#/

Endereço do artigo: https://arxiv.org/pdf/2410.07718