A Universidade de Zhejiang e a Alibaba lançaram um novo modelo de áudio controlado, o OmniAvatar, marcando um novo avanço na tecnologia de personagens digitais. Esse modelo é acionado pelo áudio e pode gerar vídeos completos de personagens digitais naturais e suaves, destacando-se especialmente em cenas de canto, com sincronização precisa entre os movimentos dos lábios e o áudio, resultando em um efeito realista.

O OmniAvatar permite que os usuários controlem com precisão os detalhes da geração por meio de dicas de texto, permitindo personalizar a amplitude dos movimentos da personagem, o ambiente de fundo e as expressões emocionais, demonstrando uma alta flexibilidade. Além disso, o modelo pode gerar vídeos em que personagens virtuais interagem com objetos, oferecendo amplas possibilidades de aplicação em cenários comerciais como anúncios de e-commerce e marketing. Por exemplo, marcas podem usar o OmniAvatar para criar anúncios dinâmicos, melhorando a experiência de interação dos consumidores.

Como projeto de código aberto, o OmniAvatar foi lançado no GitHub, atraindo atenção de desenvolvedores ao redor do mundo. Sua excelente performance na geração de expressões faciais, animações de metade do corpo e do corpo inteiro supera modelos semelhantes existentes. Relata-se que o modelo também suporta aplicações em diversos cenários, incluindo programas de podcasts, interações interpessoais e apresentações dinâmicas, mostrando seu grande potencial no campo da criação de conteúdo.

Especialistas da indústria afirmam que o lançamento do OmniAvatar não apenas aumentou a autenticidade e a controlabilidade da tecnologia de personagens digitais acionados por áudio, mas também impulsionou inovações nas áreas de marketing, educação e entretenimento. No futuro, a Universidade de Zhejiang e a Alibaba continuarão aprofundando sua colaboração, explorando mais possibilidades da inteligência artificial multimodal.