Meta lança sistema de IA MoCha: gera animações de personagens com fala e movimentos sincronizados

AIbase基地

Publicado emNotícias e Informações de IA · 6 minutos de leitura · Apr 2, 2025

Uma equipe de pesquisa da Meta e da Universidade de Waterloo desenvolveram conjuntamente um sistema de inteligência artificial chamado MoCha, capaz de gerar animações de personagens completas, incluindo fala sincronizada e movimentos naturais. Esta inovação se diferencia dos modelos de geração de animação facial existentes, pois o MoCha pode renderizar movimentos corporais completos a partir de múltiplas câmeras, incluindo sincronização labial, gestos e interação entre vários personagens.

Melhorando a precisão da sincronização labial

A demonstração do MoCha destaca a geração sincronizada de movimentos da parte superior do corpo e gestos em close-ups e planos médios. A singularidade do sistema reside em seu mecanismo de "atenção da janela áudio-vídeo", que resolve dois desafios de longa data na geração de vídeo por IA: como manter a resolução total do áudio durante a compressão de vídeo e como evitar a dessincronização entre o movimento labial e o áudio durante a geração paralela de vídeo.

A inovação do MoCha está em simular a forma como os humanos falam, limitando o acesso a uma janela específica de dados de áudio para cada quadro – o movimento dos lábios está intimamente relacionado ao som imediato, enquanto a linguagem corporal é baseada em padrões de texto mais amplos. Ao adicionar marcadores antes e depois de cada quadro de áudio, o MoCha consegue transições mais suaves e sincronização labial mais precisa.

O MoCha gera vídeos realistas com rosto, gestos e movimentos labiais com base em descrições de texto.

Para construir o sistema, a equipe de pesquisa utilizou 300 horas de conteúdo de vídeo cuidadosamente selecionado e combinou sequências de vídeo baseadas em texto para expandir as possibilidades de expressão e interação. Especialmente em cenários com múltiplos personagens, o MoCha demonstra sua capacidade robusta; os usuários precisam definir os personagens apenas uma vez e podem chamá-los facilmente em diferentes cenários usando tags (como "personagem 1" ou "personagem 2"), sem necessidade de descrições repetidas.

Gerenciando múltiplos personagens

Em testes com 150 cenários diferentes, o MoCha superou sistemas semelhantes em termos de qualidade de sincronização labial e movimentos naturais. Avaliadores independentes concordaram que os vídeos gerados pelo sistema são altamente realistas e demonstram precisão e naturalidade sem precedentes.

Os pesquisadores desenvolveram um modelo de prompt que permite aos usuários referenciar personagens específicos sem descrições repetidas.

O desenvolvimento do MoCha demonstra um enorme potencial em várias áreas de aplicação, especialmente em assistentes digitais, avatares virtuais, publicidade e conteúdo educacional. Embora a Meta ainda não tenha revelado se o sistema será de código aberto ou se ainda está em fase de protótipo de pesquisa, o lançamento dessa tecnologia certamente abre um novo capítulo para a geração de vídeo impulsionada por IA.

No contexto da crescente competição na tecnologia de vídeo de inteligência artificial, o lançamento do MoCha é particularmente notável. A Meta lançou recentemente o sistema MovieGen, enquanto a ByteDance, empresa-mãe do TikTok, está desenvolvendo suas próprias ferramentas de animação de inteligência artificial, incluindo INFP, OmniHuman-1 e Goku, mostrando a postura ativa das empresas de mídia social neste campo.

MoCha Animação de Personagens com IA Meta Captura de Movimento Corporal

Este artigo é do AIbase Daily

Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.

—— Criado pelo Grupo AIbase Daily

Notícias de IA Relacionadas Recomendadas

Notícias de IA enfrentam resistência pública: metade dos americanos rejeita reportagens escritas por máquinas

Uma pesquisa recente revela que aproximadamente metade da população americana se opõe à utilização de inteligência artificial na produção de notícias. A resistência se deve a preocupações com a precisão, a imparcialidade e o impacto potencial na indústria jornalística.

Apr 14, 2025

Tesla amplia contratações em ritmo acelerado para atingir meta de produção inicial do robô humanoide Optimus

A Tesla está acelerando seu projeto de robô humanoide Optimus, com o objetivo de alcançar a produção em massa inicial. Segundo as últimas notícias, a Tesla aumentou significativamente suas contratações recentemente, adicionando dezenas de vagas relacionadas ao Optimus, abrangendo diversas áreas como engenharia de manufatura, gestão de produção e desenvolvimento tecnológico. Essa iniciativa demonstra o comprometimento da Tesla em atingir sua meta de produzir os primeiros robôs Optimus até 2025, além de aprofundar a colaboração com parceiros para impulsionar a comercialização da tecnologia de robôs humanoides. Atualmente, as contratações da Tesla...

Apr 10, 2025

DeepSeek e Tsinghua em pesquisa conjunta: método inovador de raciocínio com modelo de recompensa melhora a escalabilidade

Recentemente, pesquisadores da DeepSeek e da Tsinghua publicaram um novo artigo explorando métodos de escalabilidade para raciocínio com modelos de recompensa, aproximando ainda mais o DeepSeek R2. Atualmente, o aprendizado por reforço é amplamente aplicado na fase de treinamento em larga escala de modelos de linguagem grandes, mas enfrenta o desafio de obter sinais de recompensa precisos para esses modelos. Os pesquisadores descobriram que o uso de modelagem de recompensa generativa pontual (GRM) pode melhorar a capacidade de adaptação do modelo e a escalabilidade na fase de raciocínio. Para isso, eles propuseram o aprendizado de Otimização de Avaliação de Princípios Próprios (SPCT).

Apr 5, 2025

100

OpenAI busca US$ 40 bilhões em financiamento, mas enfrenta pressão da Microsoft; corte pela metade caso não haja mudança até o final do ano

A OpenAI está buscando uma rodada de financiamento de US$ 40 bilhões, liderada pelo SoftBank japonês, com uma condição rigorosa: a OpenAI precisa se transformar em uma empresa lucrativa até o final de 2025. Se bem-sucedida, a empresa poderá atingir uma avaliação de US$ 300 bilhões, tornando-se o rei dos unicórnios na área de inteligência artificial. No entanto, esse financiamento não é garantido. Se a OpenAI não conseguir atingir essa transformação na data prevista, o financiamento será reduzido para US$ 20 bilhões.

Mar 31, 2025

100

Controle de Movimento! Modelo de Vídeo a partir de Imagem Step-Video-TI2V de código aberto

A Step-星辰智能科技有限公司 de Xangai anunciou o lançamento de código aberto de seu mais recente modelo de vídeo a partir de imagem - Step-Video-TI2V. Este modelo foi treinado com base no Step-Video-T2V de 30B parâmetros e pode gerar vídeos de 102 quadros, 5 segundos e resolução de 540P, com duas características principais: controle da amplitude de movimento e controle do movimento da câmera. Ele se destaca especialmente na geração de efeitos de animação.

Mar 20, 2025

Lançamento impressionante do modelo de geração de imagem Ideogram 2a: velocidade dobrada, custo reduzido pela metade e composição de texto em inglês comparável ao design humano

Em 27 de fevereiro de 2025, o serviço de geração de imagens de IA Ideogram recebeu uma atualização muito esperada, com o lançamento oficial de seu novo modelo, o "Ideogram 2a". De acordo com informações divulgadas no Twitter pelo usuário @sundyme, este novo modelo não apenas apresentou uma melhoria significativa na velocidade de geração, mas também reduziu os custos pela metade, consolidando ainda mais a posição de liderança do Ideogram na área de geração de imagens a partir de texto (Text-to-Image). Em sua publicação no Twitter, @sundyme elogiou...

Feb 28, 2025

Executivos do Google respondem à reversão do compromisso com IA de armas e metas de diversidade, causando indignação entre funcionários!

Em uma recente reunião de todos os funcionários, executivos do Google detalharam a decisão da empresa de abandonar as metas de diversidade e inclusão (D&I) e seu compromisso de não desenvolver inteligência artificial para fins bélicos. Melonie Parker, ex-chefe de diversidade do Google, afirmou que a empresa interromperá os programas de treinamento de D&I para funcionários e “atualizará” outros treinamentos relacionados. Esta é a primeira resposta a todos os funcionários desde que o Google anunciou que não estabeleceria mais metas de contratação para diversidade. O advogado-chefe do Google, Kent Walker, disse que, desde que a empresa apresentou pela primeira vez sua AI Princ

Feb 13, 2025

1.1k

Estudo alerta para os limites dos modelos de linguagem de IA: desempenho reduzido à metade com contexto superior a 8K, raciocínio conceitual se torna um desafio

Uma pesquisa recente realizada pela Universidade de Munique, o Centro de Aprendizado de Máquina de Munique e a Adobe Research mostra que 12 modelos de linguagem de IA de ponta, incluindo GPT-4o, Gemini1.5Pro e Llama-3.3-70B, enfrentam uma redução significativa de desempenho em tarefas de raciocínio conceitual com texto longo. Embora esses modelos suportem o processamento de contexto de pelo menos 128.000 tokens, sua capacidade de ligação lógica profunda ainda apresenta limitações fundamentais. A equipe de pesquisa desenvolveu o NOLIMA (sem correspondência de texto)

Feb 13, 2025

1.2k

Usuários ativos mensais de aplicativos AIGC ultrapassam 100 milhões, com Doubao dominando metade do mercado

De acordo com os dados mais recentes da empresa de pesquisa QuestMobile, até o final de novembro de 2024, os usuários ativos mensais de aplicativos AIGC (conteúdo gerado por inteligência artificial) na China ultrapassaram 100 milhões. Entre eles, o Doubao, da ByteDance, se destacou, detendo metade do mercado graças à sua sólida base de usuários. Simultaneamente, o Wen Xiaoyan do Baidu e o Kimi, assistente inteligente desenvolvido pela Yue Zhi Anmian, também conquistaram espaço no mercado. Com o rápido crescimento dos aplicativos AIGC, a concentração de usuários em empresas líderes tende a aumentar.

Jan 20, 2025

2.9k

Li Xiang: Quase metade do investimento anual em P&D da Ideal Motors é destinada à IA

Na primeira edição do Ideal AI Talk 2024, Li Xiang, CEO da Ideal Motors, compartilhou sua visão sobre o futuro do papel da inteligência artificial na indústria automobilística e anunciou a transformação da empresa em uma empresa de inteligência artificial. Li Xiang acredita que a inteligência é o futuro da indústria automobilística e que a Ideal Motors desempenhará um papel importante nessa transformação. Em termos de investimento em P&D, Li Xiang revelou que, dos 10 bilhões de yuans investidos anualmente em P&D, metade é destinada à inteligência artificial. Ele acredita que o surgimento de grandes modelos causará mudanças fundamentais para a humanidade, e a internet possibilitou o acesso à informação...

Dec 26, 2024

1.1k

Notícias de IA

IA Diário

Linha do Tempo da IA

Al hardware

Casos Recentes

Coleção de Imagens

Coleção de Vídeos

Coleção de Áudios

Coleção de Conteúdo

Tutoriais Recentes

Ranking de Produtos de IA

Ranking de Crescimento de Tráfego de IA

Ranking de Queda de Tráfego de IA

Ranking Semanal de IA

Estados Unidos

China

Índia

Brasil

Geração de Imagens

Assistente Pessoal

Geração de Personagens

Geração de Vídeos

Ranking de Projetos de IA

Ranking de Crescimento de Projetos de IA

Ranking de Desenvolvedores de IA

Ranking de Organizações de IA

Deepseek

TTS

LLM

ChatGPT

Visão Geral