EchoMimic: Projeto de sincronização labial com IA que gera vídeos realistas a partir de áudio e fotos

AIbase

Publicado emNotícias e Informações de IA · 5 minutos de leitura · Jul 11, 2024

2.4k

Na área de sincronização labial de vídeo com IA, a Ant Group e sua equipe de pesquisa lançaram uma nova tecnologia semelhante ao Emo da Alibaba, que gera vídeos de sincronização labial vívidos com base em áudio e uma foto do personagem.

Acesso ao produto: https://top.aibase.com/tool/echomimic

A tecnologia EchoMimic, com seu método inovador, resolve as limitações dos métodos tradicionais de acionamento por áudio ou pontos-chave faciais, resultando em uma geração de retratos mais realista e dinâmica.

Métodos tradicionais, ao lidar com sinais de áudio fracos ou com controle excessivo de informações de pontos-chave faciais, tendem a produzir resultados instáveis ou pouco naturais. O EchoMimic, utilizando simultaneamente áudio e características faciais e empregando uma estratégia de treinamento inovadora, supera esses desafios. Este método não apenas pode gerar vídeos de retratos usando áudio ou características faciais independentemente, mas também, combinando ambos, cria efeitos de animação mais refinados e realistas.

O núcleo da tecnologia EchoMimic reside em sua capacidade de capturar precisamente a correlação entre sinais de áudio e características faciais, gerando animação com base nisso. Durante o treinamento, o EchoMimic utiliza uma tecnologia avançada de fusão de dados, garantindo a integração eficaz de áudio e características faciais, melhorando assim a estabilidade e a naturalidade da animação. Veja abaixo alguns exemplos da demonstração oficial do EchoMimic:

Efeito de sincronização labial em chinês e inglês:

Efeito de canto:

Além disso, o EchoMimic não apenas pode gerar áudio e características faciais separadamente, mas também pode gerar vídeos de retratos combinando áudio e características faciais selecionadas, permitindo o uso de vídeos de referência de expressões (pontos de referência) para controlar as expressões faciais do personagem. Exemplo de áudio + controle de expressão em área facial selecionada:

Após uma comparação abrangente com algoritmos alternativos em vários conjuntos de dados públicos e conjuntos de dados coletados internamente, o EchoMimic demonstrou desempenho excepcional em avaliações quantitativas e qualitativas. Isso é demonstrado plenamente nos efeitos visualizados na página do projeto EchoMimic.

Com o avanço contínuo da tecnologia e a aprofundamento de suas aplicações, o EchoMimic tem o potencial de desempenhar um papel ainda maior no futuro da animação de retratos.

Destaques:

🎙️ **Fusão de áudio e características faciais**: O EchoMimic combina sinais de áudio e informações de pontos-chave faciais para criar animações de retratos mais realistas.

🔧 **Estratégia de treinamento inovadora**: A tecnologia emprega um método de treinamento inovador, melhorando a estabilidade e a naturalidade da animação.

🏆 **Desempenho excepcional**: Em comparação com algoritmos alternativos em vários conjuntos de dados, o EchoMimic apresentou desempenho superior em avaliações quantitativas e qualitativas.

Notícias de IA

Este artigo é do AIbase Daily

Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.

—— Criado pelo Grupo AIbase Daily

Notícias de IA Relacionadas Recomendadas

MiniMax lança o primeiro mercado global de recriação de agentes de IA 150.000 dólares em prêmios abrem um novo modelo de criação

MiniMax lança o primeiro mercado de recriação de agentes de IA, o Agent Remix Marketplace, promovendo colaboração. Oferece remixagem de obras de IA com ganhos para criadores originais (100 Credits por uso). Competição global com US$150K em prêmios para originais e remixes, abrangendo diversos cenários e incentivando participação não técnica. Plataforma visa expandir ecossistema de IA através de colaboração comunitária.....

Aug 12, 2025

Jornal de IA: Modelo de raciocínio visual GLM-4.5V da Zhipu é aberto ao público; Academia DAMO abre três tecnologias principais de inteligência corporal; O 360 Zhinao apresenta a série de modelos Light-IF

Bem-vindo à seção 【Jornal de IA】! Aqui você explora o mundo da inteligência artificial todos os dias. Todos os dias, trazemos para você os conteúdos mais quentes da área de IA, focando nos desenvolvedores, ajudando-o a compreender as tendências tecnológicas e conhecer aplicações de produtos de IA inovadores. Produtos de IA novos, clique para saber mais: https://top.aibase.com/1. Lançamento aberto do modelo GLM-4.5V da Zhipu: Modelo global de raciocínio visual de 100B melhorado, a Zhipu anunciou e abriu ao público o modelo de raciocínio visual aberto de 100B com melhor desempenho no mundo, GLM-4.5V,

Aug 12, 2025

220

La Viagem da Unitech para o Primeiro Campeonato Mundial de Robôs Humanoides, os Hardwares Serão Adotados por Muitas Equipes

Segundo informações do WeChat oficial da Unitech, a empresa participará do Primeiro Campeonato Mundial de Robôs Humanoides de 14 a 17 de agosto. A Unitech revelou que, além da própria equipe, várias outras equipes usarão hardware dos robôs Unitech no campeonato, mas combinarão com algoritmos próprios. Como os projetos do campeonato são intensos e numerosos, a equipe da Unitech participará apenas de algumas competições, em vez de todas as provas. Essa apresentação destaca não apenas a força da Unitech no campo de hardware de robôs humanoides, mas também a ampla aplicação de seus equipamentos entre diferentes equipes, refletindo sua tecnologia.

Aug 12, 2025

640

Huawei lança nova tecnologia para otimizar a inferência de modelos grandes: a tecnologia UCM reduz a dependência de HBM

Em 12 de agosto, a Huawei vai lançar uma tecnologia inovadora de inferência de IA revolucionária chamada UCM (Gerenciador de Memória de Dados de Inferência) no Fórum sobre Aplicações Práticas e Desenvolvimento da Inteligência Artificial na Finança em 2025. Essa tecnologia promete reduzir a dependência da China em relação ao HBM (memória de largura de banda alta) para a inferência de IA e melhorar significativamente o desempenho da inferência de modelos grandes no país. A UCM se baseia no KV Cache, integrando ferramentas de algoritmos de aceleração de cache de múltiplos tipos, gerenciando hierarquicamente os dados de memória gerados durante a inferência, aumentando a janela de contexto e realizando a inferência com alto throughput e baixa latência.

Aug 12, 2025

410

Gao De integra plenamente o modelo de grande escala Tongyi e lança o primeiro agente AI original para mapas

O mapa Gao De, pertencente ao Grupo Alibaba, fez uma parceria profunda com o Laboratório Tongyi e anunciou a criação do primeiro mapa AI original do mundo. Esse resultado da parceria foi implementado na versão 2025 do mapa Gao De, lançada recentemente. Um dos destaques da versão 2025 do mapa Gao De é a introdução de um agente inteligente chamado "Professor Gao". Este agente inteligente pode interagir com os usuários de forma natural por meio de diferentes formas de entrada, como áudio e texto. Para oferecer uma experiência de interação mais precisa e fluida, o mapa Gao De colaborou com a equipe de voz do Laboratório Tongyi para construir um sistema completo de reconhecimento de voz.

Aug 12, 2025

580

Qualcomm anuncia: o novo modelo de código aberto da OpenAI gpt-oss-20b pode ser executado localmente em dispositivos Snapdragon

OpenAI lançou o modelo open-source GPT-OSS-20B com 20 bilhões de parâmetros, otimizado para rodar localmente em dispositivos móveis, oferecendo privacidade e desempenho comparável ao O3-mini.....

Aug 12, 2025

Musk confirma o fechamento do projeto Tesla Dojo e muda foco para o desenvolvimento de chips AI5 e AI6

Musk confirmou o fim da equipe Dojo AI da Tesla. O projeto foi encerrado devido à mudança para chips AI6, com parte da tecnologia mantida. Tesla agora foca em chips AI5/AI6 para automação e robótica, visando eficiência.....

Aug 12, 2025

Usuários pagos em primeiro lugar: Claude AI lança função de memória de conversas anteriores, suporte a alternância de múltiplos fundos

Anthropic lançou uma função de memória para o Claude AI, que salva automaticamente as informações de contexto do usuário e o progresso do trabalho, permitindo conversas contínuas entre sessões. Os usuários podem configurar backgrounds independentes para diferentes projetos, suportando a separação entre trabalho e vida pessoal. Essa função está disponível no site, desktop e mobile, atualmente apenas para usuários com assinatura Claude Max/Team/Enterprise, enquanto a versão Pro será suportada posteriormente. Ao contrário da opção manual de pré-configuração do ChatGPT, o Claude utiliza um mecanismo único de memória que extrai automaticamente registros anteriores.

Aug 12, 2025

NVIDIA lança novo modelo Cosmos Reason, acelerando o desenvolvimento de robôs e IA física

A NVIDIA lançou várias ferramentas de desenvolvimento de IA para robôs na conferência SIGGRAPH: 1) O modelo de linguagem visual com 7 bilhões de parâmetros chamado Cosmos Reason, capaz de compreensão física e memória; 2) O Cosmos Transfer-2 e sua versão simplificada, que aceleram a geração de dados de treinamento sintético; 3) A biblioteca de reconstrução neural para simulação de cenários 3D; 4) Servidores RTX Pro Blackwell e plataforma de gerenciamento DGX Cloud. Essas ferramentas serão integradas a plataformas open-source como o simulador CARLA, ajudando

Aug 12, 2025

Intel lança LLM-Scaler1.0 para impulsionar o desempenho da inferência de IA

Intel lança LLM-Scaler1.0 para otimizar desempenho de IA em GPUs Arc B, com suporte a multi-GPU e recursos empresariais. Versão estável prevista para Q4.....

Aug 12, 2025

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

EchoMimic: Projeto de sincronização labial com IA que gera vídeos realistas a partir de áudio e fotos

AIbase

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

MiniMax lança o primeiro mercado global de recriação de agentes de IA 150.000 dólares em prêmios abrem um novo modelo de criação

Jornal de IA: Modelo de raciocínio visual GLM-4.5V da Zhipu é aberto ao público; Academia DAMO abre três tecnologias principais de inteligência corporal; O 360 Zhinao apresenta a série de modelos Light-IF

La Viagem da Unitech para o Primeiro Campeonato Mundial de Robôs Humanoides, os Hardwares Serão Adotados por Muitas Equipes

Huawei lança nova tecnologia para otimizar a inferência de modelos grandes: a tecnologia UCM reduz a dependência de HBM

Gao De integra plenamente o modelo de grande escala Tongyi e lança o primeiro agente AI original para mapas

Qualcomm anuncia: o novo modelo de código aberto da OpenAI gpt-oss-20b pode ser executado localmente em dispositivos Snapdragon

Musk confirma o fechamento do projeto Tesla Dojo e muda foco para o desenvolvimento de chips AI5 e AI6

Usuários pagos em primeiro lugar: Claude AI lança função de memória de conversas anteriores, suporte a alternância de múltiplos fundos

NVIDIA lança novo modelo Cosmos Reason, acelerando o desenvolvimento de robôs e IA física

Intel lança LLM-Scaler1.0 para impulsionar o desempenho da inferência de IA