Mianbi Intelligent presenta VoxCPM: un modelo de generación de voz de alta fidelidad de nueva generación

AIbase基地

Publicado elNoticias de IA · 5 minutos de lectura · Sep 19, 2025

Bajo el contexto del rápido desarrollo de la tecnología de síntesis de voz, Face Intelligent y el Laboratorio de Interacción Voz-Hombre (THUHCSI) de la Escuela Internacional de Posgrado de Shenzhen de la Universidad de Tsinghua han lanzado recientemente un nuevo modelo de generación de voz: VoxCPM. Este modelo, con un tamaño de parámetros de 0,5B, se dedica a ofrecer a los usuarios una experiencia de síntesis de voz de alta calidad y natural.

El lanzamiento de VoxCPM marca otro hito en el campo de la generación de voz de alta fidelidad. En indicadores clave como naturalidad, similitud de tono de voz y expresión rítmica, el modelo alcanza niveles líderes en la industria. Gracias a la tecnología de clonación de voz sin muestra, VoxCPM puede generar voces únicas de los usuarios con muy pocos datos, logrando así una síntesis de voz personalizada. Esta mejora tecnológica abre nuevas posibilidades para las aplicaciones de generación de voz, especialmente en campos como asistentes de voz personalizados y doblaje de personajes de juegos.

Se informa que VoxCPM está disponible en plataformas como GitHub y Hugging Face, y ofrece una plataforma en línea para que los desarrolladores puedan explorar y usar sus poderosas funciones. El modelo destacó en el ranking de evaluación de síntesis de voz autorizado Seed-TTS-EVAL, obteniendo tasas de error extremadamente bajas en la tasa de errores de palabras y la similitud del tono de voz, demostrando su eficiente capacidad de razonamiento. En una tarjeta gráfica NVIDIA RTX4090, el factor de tiempo real (RTF) de VoxCPM es aproximadamente 0,17, satisfaciendo así las necesidades de interacción en tiempo real de alta calidad.

VoxCPM no solo ha logrado avances en rendimiento técnico, sino que también destaca en calidad de sonido y expresión emocional. El modelo puede elegir inteligentemente el tono, la entonación y el ritmo adecuados según el contenido del texto, simulando una experiencia auditiva indistinguible de la de una persona real. Ya sea en noticieros meteorológicos, discursos heroicos o presentadores de dialectos, VoxCPM puede reproducir con precisión, ofreciendo una experiencia auditiva inmersiva.

Además, la arquitectura técnica de VoxCPM se basa en el último modelo de generación de voz difusivo autoregresivo, integrando representaciones continuas de modelado lingüístico jerárquico y generación difusiva local, lo que mejora significativamente la expresividad y naturalidad de la voz generada. La arquitectura central del modelo incluye varios módulos que trabajan en conjunto, logrando un proceso eficiente de generación "semántica - acústica".

🔗 Github:

https://github.com/OpenBMB/VoxCPM/

🔗 Hugging Face:

https://huggingface.co/openbmb/VoxCPM-0.5B

🔗 ModelScope:

https://modelscope.cn/models/OpenBMB/VoxCPM-0.5B

🔗 Experiencia en PlayGround:

https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo

🔗 Dirección de la página de muestra de audio:

https://openbmb.github.io/VoxCPM-demopage

El departamento de computación cuántica de Google adquiere Atlantic Quantum para acelerar la expansión de hardware

El departamento de Inteligencia Artificial Cuántica de Google adquiere a Atlantic Quantum, una empresa derivada del MIT. El equipo de esta última se unirá a Google para impulsar conjuntamente la tecnología de computación cuántica. Esta adquisición tiene como objetivo fortalecer la posición de Google en el campo de hardware de qubits superconductores. La tecnología de pila de chips cuánticos modulares de Atlantic Quantum ayudará a Google a escalar su hardware.

Apuesta de potencia de cálculo de IA: OpenAI firma un acuerdo de 1 billón de dólares en chips, superando ampliamente las capacidades de financiación de Google y Microsoft

OpenAI firmó un acuerdo de potencia de cálculo por 1 billón de dólares, que excede ampliamente su capacidad de financiación, destacando la apuesta por liderar en IA. Los analistas señalan que la compañía no puede cumplir sus promesas, y se espera que tenga una pérdida de 10 mil millones de dólares este año, con ingresos anuales de solo 12 mil millones de dólares, combinando una gran inversión y una situación financiera difícil.

Actualización de OpenAI Sora: nueva función de control de contenido y ajustes en las políticas de derechos de autor

OpenAI está añadiendo funciones de control a la herramienta de generación de videos Sora para abordar el debate sobre el uso indebido de falsificaciones profundas. Los usuarios podrán gestionar de forma independiente el alcance del uso de sus imágenes digitales, por ejemplo, bloqueando contenido político o desactivando ciertas palabras para describir su imagen, mejorando así el control sobre el contenido generado por IA.

Gemini2.5Computer Use: Google presenta un modelo de agente de IA capaz de comprender páginas web

Google presenta el modelo de IA Gemini2.5Computer Use, que otorga a los agentes de IA la capacidad de interactuar con páginas web. Este modelo puede navegar, completar formularios y realizar operaciones complejas en un navegador mediante comprensión visual y razonamiento, superando las limitaciones de interfaces que tradicionalmente requerían intervención humana, abriendo así nuevas aplicaciones avanzadas para los agentes de IA.

Anthropic abre su código Petri: auditoría de seguridad de modelos con agentes de IA

El herramienta de auditoría de seguridad de IA Petri de Anthropic, que prueba automáticamente el comportamiento de modelos de IA complejos mediante agentes de IA. Esta herramienta se desarrolló basándose en el marco Inspect de AISI en el Reino Unido, con el objetivo de resolver el problema de la insuficiente capacidad de prueba manual, y ya está disponible en GitHub.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Submit Your Model

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Services

AI Search Visibility Checker

AI Model Compatibility Checker

AI Dataset Collection

Intelligent Document Recognition

Mianbi Intelligent presenta VoxCPM: un modelo de generación de voz de alta fidelidad de nueva generación

AIbase基地

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

El departamento de computación cuántica de Google adquiere Atlantic Quantum para acelerar la expansión de hardware

Apuesta de potencia de cálculo de IA: OpenAI firma un acuerdo de 1 billón de dólares en chips, superando ampliamente las capacidades de financiación de Google y Microsoft

La aplicación de codificación de inteligencia artificial de Google, Opal, llega a 15 países: ¡la era del desarrollo sin código para todos ha comenzado!

Actualización de OpenAI Sora: nueva función de control de contenido y ajustes en las políticas de derechos de autor

Gemini2.5Computer Use: Google presenta un modelo de agente de IA capaz de comprender páginas web

Anthropic abre su código Petri: auditoría de seguridad de modelos con agentes de IA

El CEO de OpenAI elogia a ChatGPT Pulse como su funcionalidad favorita, pero no descarta la introducción de publicidad en el futuro

Informe de Stanford revela la proliferación de escritura por IA: un cuarto de los comunicados de prensa empresariales muestran señales de modelos grandes

Juego de búsqueda del nuevo álbum de Taylor Swift desencadena controversia: los fans cuestionan que el video de promoción sea generado por IA

AMD firma un acuerdo de chips de cientos de miles de millones de dólares para suministrar 6 gigavatios de capacidad de cálculo de inteligencia artificial a OpenAI

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Submit Your Model

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Services​

AI Search Visibility Checker

AI Model Compatibility Checker

AI Dataset Collection

Intelligent Document Recognition

Mianbi Intelligent presenta VoxCPM: un modelo de generación de voz de alta fidelidad de nueva generación

AIbase基地

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

El departamento de computación cuántica de Google adquiere Atlantic Quantum para acelerar la expansión de hardware

Apuesta de potencia de cálculo de IA: OpenAI firma un acuerdo de 1 billón de dólares en chips, superando ampliamente las capacidades de financiación de Google y Microsoft

La aplicación de codificación de inteligencia artificial de Google, Opal, llega a 15 países: ¡la era del desarrollo sin código para todos ha comenzado!

Actualización de OpenAI Sora: nueva función de control de contenido y ajustes en las políticas de derechos de autor

Gemini2.5Computer Use: Google presenta un modelo de agente de IA capaz de comprender páginas web

Anthropic abre su código Petri: auditoría de seguridad de modelos con agentes de IA

El CEO de OpenAI elogia a ChatGPT Pulse como su funcionalidad favorita, pero no descarta la introducción de publicidad en el futuro

Informe de Stanford revela la proliferación de escritura por IA: un cuarto de los comunicados de prensa empresariales muestran señales de modelos grandes

Juego de búsqueda del nuevo álbum de Taylor Swift desencadena controversia: los fans cuestionan que el video de promoción sea generado por IA

AMD firma un acuerdo de chips de cientos de miles de millones de dólares para suministrar 6 gigavatios de capacidad de cálculo de inteligencia artificial a OpenAI

GEO Services