Com o rápido desenvolvimento da tecnologia de síntese de voz, a Face-Inteligência e o Laboratório de Interação Voz-Humano da Escola de Graduação Internacional de Shenzhen da Universidade Tsinghua (THUHCSI) anunciaram recentemente uma nova modelo de geração de voz — VoxCPM. Este modelo, com 0,5B de parâmetros, visa oferecer aos usuários uma experiência de síntese de voz de alta qualidade e natural.

A lançamento do VoxCPM marca mais um marco no campo da geração de voz realista. Em indicadores-chave como naturalidade, similaridade de tom de voz e expressividade rítmica, o modelo atinge níveis líderes na indústria. Por meio da tecnologia de cópia de voz sem amostras, o VoxCPM é capaz de gerar vozes únicas dos usuários com poucos dados, permitindo assim a síntese de voz personalizada. Essa evolução tecnológica traz mais possibilidades para os cenários de aplicação da geração de voz, especialmente em assistentes de voz personalizados e dublagem de personagens de jogos.

QQ20250919-103112.png

Segundo informações, o VoxCPM já está disponível no GitHub e no Hugging Face, e fornece uma plataforma online para os desenvolvedores experimentarem e usarem suas poderosas funcionalidades. O modelo se destacou no ranking de avaliação de síntese de voz autoritário Seed-TTS-EVAL, obtendo taxas extremamente baixas em termos de taxa de erro de palavras e similaridade de tom de voz, demonstrando sua eficiência de raciocínio excepcional. Em uma placa NVIDIA RTX4090, o fator de tempo real (RTF) do VoxCPM atinge cerca de 0,17, atendendo às necessidades de interação em tempo real de alta qualidade.

O VoxCPM não apenas apresenta avanços na performance técnica, mas também destaca-se na qualidade da voz e na expressão emocional. O modelo é capaz de escolher automaticamente tons, entonações e ritmos apropriados com base no conteúdo do texto, simulando uma experiência auditiva indistinguível da voz humana. Seja em notícias meteorológicas, discursos heroicos ou apresentadores de dialetos, o VoxCPM pode reproduzir com precisão, proporcionando uma experiência auditiva imersiva.

Além disso, a arquitetura tecnológica do VoxCPM se baseia no modelo mais recente de geração de voz difusão autoregressiva, combinando representações contínuas de modelagem linguística hierárquica e geração difusão local, aumentando significativamente a expressividade e naturalidade da voz gerada. A arquitetura central do modelo inclui vários módulos que trabalham em conjunto, realizando eficientemente o processo de geração "semântico - acústico".

🔗 Github:

https://github.com/OpenBMB/VoxCPM/

🔗 Hugging Face: 

https://huggingface.co/openbmb/VoxCPM-0.5B

🔗 ModelScope: 

https://modelscope.cn/models/OpenBMB/VoxCPM-0.5B

🔗 Plataforma de Experimentação:

https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo

🔗 Endereço da página de amostra de áudio:

https://openbmb.github.io/VoxCPM-demopage