Na área de sincronização labial de vídeo com IA, a Ant Group e sua equipe de pesquisa lançaram uma nova tecnologia semelhante ao Emo da Alibaba, que gera vídeos de sincronização labial vívidos com base em áudio e uma foto do personagem.

image.png

Acesso ao produto: https://top.aibase.com/tool/echomimic

A tecnologia EchoMimic, com seu método inovador, resolve as limitações dos métodos tradicionais de acionamento por áudio ou pontos-chave faciais, resultando em uma geração de retratos mais realista e dinâmica.

Métodos tradicionais, ao lidar com sinais de áudio fracos ou com controle excessivo de informações de pontos-chave faciais, tendem a produzir resultados instáveis ou pouco naturais. O EchoMimic, utilizando simultaneamente áudio e características faciais e empregando uma estratégia de treinamento inovadora, supera esses desafios. Este método não apenas pode gerar vídeos de retratos usando áudio ou características faciais independentemente, mas também, combinando ambos, cria efeitos de animação mais refinados e realistas.

O núcleo da tecnologia EchoMimic reside em sua capacidade de capturar precisamente a correlação entre sinais de áudio e características faciais, gerando animação com base nisso. Durante o treinamento, o EchoMimic utiliza uma tecnologia avançada de fusão de dados, garantindo a integração eficaz de áudio e características faciais, melhorando assim a estabilidade e a naturalidade da animação. Veja abaixo alguns exemplos da demonstração oficial do EchoMimic:

Efeito de sincronização labial em chinês e inglês:

Efeito de canto:

Além disso, o EchoMimic não apenas pode gerar áudio e características faciais separadamente, mas também pode gerar vídeos de retratos combinando áudio e características faciais selecionadas, permitindo o uso de vídeos de referência de expressões (pontos de referência) para controlar as expressões faciais do personagem. Exemplo de áudio + controle de expressão em área facial selecionada:

Após uma comparação abrangente com algoritmos alternativos em vários conjuntos de dados públicos e conjuntos de dados coletados internamente, o EchoMimic demonstrou desempenho excepcional em avaliações quantitativas e qualitativas. Isso é demonstrado plenamente nos efeitos visualizados na página do projeto EchoMimic.

Com o avanço contínuo da tecnologia e a aprofundamento de suas aplicações, o EchoMimic tem o potencial de desempenhar um papel ainda maior no futuro da animação de retratos.

Destaques:

🎙️ **Fusão de áudio e características faciais**: O EchoMimic combina sinais de áudio e informações de pontos-chave faciais para criar animações de retratos mais realistas.

🔧 **Estratégia de treinamento inovadora**: A tecnologia emprega um método de treinamento inovador, melhorando a estabilidade e a naturalidade da animação.

🏆 **Desempenho excepcional**: Em comparação com algoritmos alternativos em vários conjuntos de dados, o EchoMimic apresentou desempenho superior em avaliações quantitativas e qualitativas.