Bajo el contexto del rápido desarrollo de la tecnología de síntesis de voz, Face Intelligent y el Laboratorio de Interacción Voz-Hombre (THUHCSI) de la Escuela Internacional de Posgrado de Shenzhen de la Universidad de Tsinghua han lanzado recientemente un nuevo modelo de generación de voz: VoxCPM. Este modelo, con un tamaño de parámetros de 0,5B, se dedica a ofrecer a los usuarios una experiencia de síntesis de voz de alta calidad y natural.

El lanzamiento de VoxCPM marca otro hito en el campo de la generación de voz de alta fidelidad. En indicadores clave como naturalidad, similitud de tono de voz y expresión rítmica, el modelo alcanza niveles líderes en la industria. Gracias a la tecnología de clonación de voz sin muestra, VoxCPM puede generar voces únicas de los usuarios con muy pocos datos, logrando así una síntesis de voz personalizada. Esta mejora tecnológica abre nuevas posibilidades para las aplicaciones de generación de voz, especialmente en campos como asistentes de voz personalizados y doblaje de personajes de juegos.

QQ20250919-103112.png

Se informa que VoxCPM está disponible en plataformas como GitHub y Hugging Face, y ofrece una plataforma en línea para que los desarrolladores puedan explorar y usar sus poderosas funciones. El modelo destacó en el ranking de evaluación de síntesis de voz autorizado Seed-TTS-EVAL, obteniendo tasas de error extremadamente bajas en la tasa de errores de palabras y la similitud del tono de voz, demostrando su eficiente capacidad de razonamiento. En una tarjeta gráfica NVIDIA RTX4090, el factor de tiempo real (RTF) de VoxCPM es aproximadamente 0,17, satisfaciendo así las necesidades de interacción en tiempo real de alta calidad.

VoxCPM no solo ha logrado avances en rendimiento técnico, sino que también destaca en calidad de sonido y expresión emocional. El modelo puede elegir inteligentemente el tono, la entonación y el ritmo adecuados según el contenido del texto, simulando una experiencia auditiva indistinguible de la de una persona real. Ya sea en noticieros meteorológicos, discursos heroicos o presentadores de dialectos, VoxCPM puede reproducir con precisión, ofreciendo una experiencia auditiva inmersiva.

Además, la arquitectura técnica de VoxCPM se basa en el último modelo de generación de voz difusivo autoregresivo, integrando representaciones continuas de modelado lingüístico jerárquico y generación difusiva local, lo que mejora significativamente la expresividad y naturalidad de la voz generada. La arquitectura central del modelo incluye varios módulos que trabajan en conjunto, logrando un proceso eficiente de generación "semántica - acústica".

🔗 Github:

https://github.com/OpenBMB/VoxCPM/

🔗 Hugging Face: 

https://huggingface.co/openbmb/VoxCPM-0.5B

🔗 ModelScope: 

https://modelscope.cn/models/OpenBMB/VoxCPM-0.5B

🔗 Experiencia en PlayGround:

https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo

🔗 Dirección de la página de muestra de audio:

https://openbmb.github.io/VoxCPM-demopage