MiniMax anunció hoy el lanzamiento de su nueva generación de modelo de generación de voz, Speech2.5, que establece un nuevo estándar en el ámbito mundial de la tecnología de voz, consolidando aún más su posición como el modelo de voz más potente del mundo. Speech2.5 ha logrado mejoras significativas en expresión multilingüe, replicación de tonos de voz y cobertura de idiomas.

En comparación con Speech02, lanzado en mayo de este año, Speech2.5 ha avanzado de forma notable en la expresión multilingüe, manteniendo especialmente el nivel más alto del mundo en chino, mientras que también se han mejorado significativamente las prestaciones en inglés y otros idiomas. En aspectos como la tasa de errores por palabra, la similitud y el ritmo natural, Speech2.5 supera a su antecesor. Los usuarios pueden cambiar fácilmente entre 40 idiomas, brindando una experiencia de voz más natural y fluida, ya sea en reuniones empresariales, conversaciones cotidianas o podcasts en inglés, eliminando completamente la sensación mecánica común en la síntesis de voz anterior.

微信截图_20250807091241.png

En cuanto a la replicación de tonos de voz, Speech2.5 alcanza un nivel de precisión líder en la industria. No solo puede replicar acentos entre idiomas, sino que también puede preservar las características de acentos de diferentes regiones dentro del mismo idioma, e incluso puede replicar con precisión voces de edades específicas. Ya sea en escenarios extremos o al cambiar entre idiomas, Speech2.5 mantiene detalles altamente realistas en los tonos de voz. Por ejemplo, al usar la pronunciación clásica de la Reina de Inglaterra para presentar Speech2.5, el modelo puede reproducir perfectamente sus pausas, ritmo y manejo de pronunciación únicos, incluso al cambiar entre italiano y inglés, manteniendo aún sus características de acento.

Además, el alcance multilingüe de Speech2.5 se ha ampliado significativamente desde versiones anteriores hasta 40 idiomas, incluyendo nuevos idiomas como búlgaro, danés, hebreo, malayo, persa, eslovaco, sueco, croata, filipino, húngaro, noruego, esloveno, catalán, ninotsk, tamil y afrikáans. Esta expansión hace que Speech2.5 tenga una ventaja mayor en la creación de contenido global, permitiendo a los usuarios generar rápidamente contenido de voz de alta calidad en múltiples idiomas, ya sea para comercio electrónico internacional, atención al cliente en el extranjero o marketing localizado.

El lanzamiento de Speech2.5 trae grandes beneficios y oportunidades de innovación para varios sectores. Para los clientes corporativos, los costos de atención al cliente multilingüe y doblaje de anuncios internacionales se reducirán significativamente. Anteriormente, el doblaje de videos promocionales globales requería altos costos y mucho tiempo, pero ahora se puede generar en solo 10 minutos. Para los creadores, la función de replicación realista de la voz personal les permite producir fácilmente videos cortos exitosos en todo el mundo, realizando la expresión creativa de "hablar 40 idiomas" con una sola persona. Los educadores también se benefician, ya que el ciclo de producción de materiales didácticos en lenguas minoritarias se ha reducido de semanas a 10 minutos, y la personalización de manuales de dialectos transfronterizos se ha vuelto más sencilla.

Speech2.5 representa una mejora adicional sobre Speech02, manteniendo no solo el mejor rendimiento del mundo, sino también mejorando aún más el desempeño. Actualmente, el modelo de voz MiniMax Speech se utiliza ampliamente en todo el mundo, incluyendo plataformas Agent como Vapi y Pipecat en el extranjero, así como aplicaciones de IA destacadas como Hedra, Icon y Syllaby. En el interior del país, plataformas y productos destacados como GaoTu Education, Ximalaya, NetEase y Rokid Glasses también han integrado MiniMax Speech.

Plataforma Abierta de MiniMax:

minimaxi.com/platform_overview

MiniMax Audio:

minimaxi.com/audio