Ferramenta de sincronização labial Heygen: carregue uma foto e áudio para falar e cantar

AIbase

Publicado emNotícias e Informações de IA · 3 minutos de leitura · Jul 12, 2024

1.1k

Recentemente, a “ressurreição” de fotos por meio de IA causou um grande impacto na internet, e o Heygen finalmente lançou sua ferramenta de sincronização labial.

Basta carregar uma foto e um áudio, e o personagem da foto começará a falar, cantar ou mesmo ler em voz alta, de acordo com o conteúdo do áudio. Atualmente, ele suporta áudios de até 20 segundos, ou seja, você pode gerar um vídeo de 20 segundos. Ainda mais impressionante: a ferramenta identifica a voz principal e garante que a sincronia labial e as expressões faciais estejam perfeitamente alinhadas com o áudio.

No entanto, há um pequeno inconveniente: o Heygen parece ter criado uma barreira para usuários na China. Atualmente, usuários na China não conseguem fazer login nem criar novas contas. Isso pode desapontar muitos que estão interessados nessa tecnologia.

Deixando isso de lado, o Heygen apresenta um crescimento bastante forte. Em junho deste ano, o Heygen arrecadou US$ 60 milhões em uma rodada de financiamento com uma avaliação de US$ 500 milhões. A rodada foi liderada pela Benchmark, com a participação de Conviction, Thrive Capital e Bond Capital, entre outras empresas de investimento de renome. Como parte do acordo, Victor Lazarte, sócio da Benchmark, se juntará ao conselho administrativo do Heygen.

Até o momento, o Heygen já arrecadou um total de US$ 74 milhões. Fundada em 2020, esta startup é uma das muitas que utilizam a tecnologia de IA generativa para produzir vídeos de forma mais barata e simples. A ferramenta do Heygen permite que qualquer pessoa crie avatares realistas, fale com a própria voz e até mesmo traduza para vários idiomas.

Endereço para experimentar: https://labs.heygen.com/guest/expressive-photo-avatar

Notícias de IA

Este artigo é do AIbase Daily

Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.

—— Criado pelo Grupo AIbase Daily

Notícias de IA Relacionadas Recomendadas

Nan AI da 360 é atualizada para um sistema de enxame de múltiplos agentes inteligentes e entra na fase L4 de agente inteligente

Pequim, 2 de agosto de 2025 — A 360 Group anunciou ontem que a sua Nan AI completou uma renovação da marca e foi oficialmente atualizada para o primeiro sistema do mundo com nível L4 de enxame de múltiplos agentes inteligentes, marcando a entrada na era da entrega de resultados em que a inteligência artificial avança da operação individual para a cooperação em grupo. Este sistema permite que mais de 50.000 agentes inteligentes de nível L3, capazes de raciocínio profundo em domínios verticais, formem grupos livres, sejam aninhados em vários níveis e se organizem dinamicamente, executando tarefas complexas por mais de duas horas consecutivas sem interrupções, consumindo apenas uma tarefa.

Aug 2, 2025

Trae ganha uma atualização poderosa! Suporta o modelo OpenAI o3 e desbloqueia uma nova era de edição de código com IA

O editor de código com IA Trae, da ByteDance, anunciou o suporte ao modelo mais recente da OpenAI, o o3, trazendo uma experiência de programação inteligente mais poderosa para os desenvolvedores. O modelo o3, com sua excelente capacidade de raciocínio lógico e uso de ferramentas, aumenta significativamente a precisão na geração e depuração de código. Com a integração do o3, o Trae oferece funcionalidades como geração inteligente de código, depuração com percepção de contexto e colaboração entre múltiplas ferramentas, sendo capaz de gerar código de alta qualidade com base em descrições simples e localizar erros com precisão. A comunidade de desenvolvedores reagiu com entusiasmo, considerando que ele aumentou significativamente a eficiência da programação. O Trae também se preocupa com a privacidade dos usuários.

Aug 1, 2025

Estudo da Microsoft revela: 20 profissões que não são facilmente afetadas pela IA, incluindo massagistas e empregadas domésticas

Estudo da Microsoft mostra que profissões médicas e de colarinho azul são as menos substituíveis por IA. Profissões como assistentes cirúrgicos, massoterapeutas e operadores de escavadeiras têm alta resistência à automação devido à necessidade de trabalho físico e interação humana. A pesquisa destaca que a adaptação à IA é complexa e não pode prever simplesmente o futuro das profissões. Operadores de dragagem e administradores de pontes estão ent....

Aug 1, 2025

Journal AI : La version accélérée de Kimi K2 est lancée ; WHEE de Meitu intègre une fonction de vidéo en haute résolution ; ByteDance lance un nouveau modèle Seed Diffusion Preview

1. WHEE da Meitu lança função de vídeo HD. 2. Kimi K2 acelera para 40 tokens/s. 3. Alibaba abre Qwen3-Coder-Flash. 4. Anthropic lidera mercado corporativo. 5. ByteDance lança Seed para código. 6. Musk anuncia gerador de vídeos e 'namorado virtual'. 7. Poe da Quora libera API com 100+ modelos. 8. FLUX.1-Krea otimiza imagens. 9. Auggie melhora produtividade. 10. Tsinghua abre MOSS-TTSD para voz. 11. Claude agora lê PDFs/imagens/códigos.....

Aug 1, 2025

Poe atualizado de forma impactante: API aberta, assinatura para uso imediato, modelos de inteligência artificial para imagens e vídeos totalmente cobertos, compatível com interface OpenAI!

O Poe lança a função de API, os desenvolvedores podem chamar diretamente todos os modelos e robôs da plataforma por meio de uma assinatura, incluindo capacidades de processamento de imagens e vídeos. Essa API é compatível com a interface OpenAI, sem necessidade de custo adicional de aprendizado, suportando diversas demandas como geração de texto, criação de conteúdo criativo, etc. O design baseado em assinatura reduz o acesso ao uso, permitindo que os desenvolvedores integrem rapidamente as capacidades técnicas do Poe e explorem o potencial das aplicações de IA. Esta atualização marca a transformação do Poe de uma plataforma de bate-papo para ferramenta para desenvolvedores.

Aug 1, 2025

Empresa ligada à DeepSeek divulga patente inovadora para implantação de modelo de linguagem grande, impulsionando o novo desenvolvimento da tecnologia de IA

A empresa ligada à DeepSeek revelou uma patente sobre implantação de modelo de linguagem grande, utilizando inovadoramente uma arquitetura distribuída: os estágios de preenchimento e decodificação são implantados separadamente em máquinas de computação de alto desempenho e memória grande. Este método equilibra a carga, reduz o tempo ocioso de cálculo e reduz significativamente o atraso, melhorando a taxa de throughput. A patente destaca a otimização da escalabilidade do sistema e da tolerância a falhas. O modelo de linguagem MoE DeepSeek-V3 possui 671 bilhões de parâmetros, ativa 37 bilhões de parâmetros por token, impulsionando a aplicação prática da tecnologia de IA em diversos setores. A principal conquista reside na combinação dos recursos de hardware.

Aug 1, 2025

O Trae IDE da ByteDance gera controversa sobre privacidade de dados, a empresa divulga esclarecimentos

A ferramenta de programação de inteligência artificial da ByteDance, o Trae IDE, está envolvido em uma controversa sobre privacidade de dados. Desenvolvedores descobriram que mesmo após desativar o telemetria, o recurso continua enviando dados e possui um mecanismo de atualização remota. A empresa respondeu dizendo que coleta apenas dados estatísticos não sensíveis e métricas de desempenho, usados para otimizar o produto, enfatizando que segue as leis de proteção de dados. No entanto, os usuários questionam a transparência dos mecanismos de criptografia e o fato de a política de privacidade não listar claramente os tipos específicos de dados coletados. A equipe explicou que o mecanismo de telemetria é independente do VSCode, e que apenas o módulo nativo foi desativado, esperando aliviar as preocupações dos usuários.

Aug 1, 2025

Creao AI completa financiamento de milhões de dólares para criar um sistema operacional colaborativo do futuro para Agentes

A empresa de tecnologia emergente Creao AI completou duas rodadas de financiamento, totalizando vários milhões de dólares, lideradas por fundos de venture capital de topo como Monolith. A empresa se especializa no desenvolvimento do próximo sistema operacional, Agentic OS (AOS), baseado em Agentes de IA, que gera aplicações inteligentes completas por meio de conversas. O fundador, Cheng Kai, afirmou que o AOS construirá uma rede de produção digital e aumentará a eficiência da colaboração entre múltiplos agentes inteligentes. Os investidores acreditam que o AOS redefinirá a forma como as pessoas interagem com máquinas, reduzindo barreiras tecnológicas. A equipe vem de grandes empresas de tecnologia como Meta e Apple, e o financiamento

Aug 1, 2025

Atualização do Claude: arquivos PDF, imagens e código podem ser carregados, a aplicação de IA coopera de forma integrada com os dados

Funcionalidades do Claude AI foram atualizadas, adicionando a capacidade de carregar vários formatos de arquivos. A versão mais recente suporta tipos de arquivos como PDF, imagens e código, permitindo uma integração sem falhas com aplicações de IA. O sistema atualizado pode realizar tarefas complexas como análise de documentos, reconhecimento de imagens e otimização de código, além de melhorar a interface do usuário e o fluxo de processamento de dados. Essa funcionalidade é baseada em avançados modelos de IA como o Claude4 e o Claude3.7Sonnet, capazes de processar dados multimodais com precisão. Esta atualização aumentou significativamente a eficiência da cooperação entre IA e dados, para usuários profissionais e comuns

Aug 1, 2025

MOSS-TTSD revolucionando o código aberto: O novo rei dos podcasts de IA construído com milhões de horas de treinamento

MOSS-TTSD, modelo de geração de voz bilíngue (chinês-inglês) da Tsinghua, usa Qwen3-1.7B-base e XY-Tokenizer para qualidade em baixa taxa de bits. Supera MoonCast em chinês, suporta até 960s de voz sem cortes. Inclui clonagem de voz e controle de eventos sonoros. Peso, API e Demo disponíveis.....

Aug 1, 2025

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

Ferramenta de sincronização labial Heygen: carregue uma foto e áudio para falar e cantar

AIbase

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

Nan AI da 360 é atualizada para um sistema de enxame de múltiplos agentes inteligentes e entra na fase L4 de agente inteligente

Trae ganha uma atualização poderosa! Suporta o modelo OpenAI o3 e desbloqueia uma nova era de edição de código com IA

Estudo da Microsoft revela: 20 profissões que não são facilmente afetadas pela IA, incluindo massagistas e empregadas domésticas

Journal AI : La version accélérée de Kimi K2 est lancée ; WHEE de Meitu intègre une fonction de vidéo en haute résolution ; ByteDance lance un nouveau modèle Seed Diffusion Preview

Poe atualizado de forma impactante: API aberta, assinatura para uso imediato, modelos de inteligência artificial para imagens e vídeos totalmente cobertos, compatível com interface OpenAI!

Empresa ligada à DeepSeek divulga patente inovadora para implantação de modelo de linguagem grande, impulsionando o novo desenvolvimento da tecnologia de IA

O Trae IDE da ByteDance gera controversa sobre privacidade de dados, a empresa divulga esclarecimentos

Creao AI completa financiamento de milhões de dólares para criar um sistema operacional colaborativo do futuro para Agentes

Atualização do Claude: arquivos PDF, imagens e código podem ser carregados, a aplicação de IA coopera de forma integrada com os dados

MOSS-TTSD revolucionando o código aberto: O novo rei dos podcasts de IA construído com milhões de horas de treinamento