En el rápido desarrollo del campo de la inteligencia artificial, el progreso de los modelos grandes nacionales ha dejado a todos asombrados. A principios de este año, DeepSeek-R1 superó a OpenAI en rendimiento con un costo extremadamente bajo, lo que hizo que se volviera a considerar la posición de monopolio de los grandes modelos extranjeros. Hoy, MiniMax trae una gran noticia: su nuevo modelo de conversión de texto a voz (TTS) "Speech-02" ha dominado con fuerza la lista de evaluación de voz Artificial Analysis, derrotando a gigantes del sector como OpenAI y ElevenLabs.
El excelente rendimiento de Speech-02 se refleja en varios indicadores clave, como la tasa de error de palabras (WER) y la similitud del hablante (SIM), obteniendo nuevos resultados óptimos (SOTA), lo que ha sorprendido a los internautas extranjeros, quienes han elogiado a MiniMax como el rompedor en el campo del audio. Lo más impresionante es que el costo de Speech-02 es solo un cuarto del de los productos competitivos de ElevenLabs, mostrando su ventaja en costos altamente competitivos.
¿Por qué Speech-02 ha logrado tales resultados sobresalientes? Hay dos innovaciones tecnológicas clave detrás de ello. Por un lado, Speech-02 ha logrado verdadera clonación de voz sin muestras previas (zero-shot). Esto significa que solo con proporcionar un fragmento de voz de referencia, sin necesidad de texto adicional, el modelo puede generar rápidamente audio altamente similar al objetivo. Esta tecnología reduce significativamente tiempo y recursos, ya que los métodos de síntesis anteriores requerían grandes cantidades de datos de muestra.
Por otro lado, MiniMax adoptó una nueva arquitectura Flow-VAE, que mejora la capacidad de representación de información durante el proceso de generación de voz, mejorando así la calidad y la similitud del audio sintetizado. Introduciendo un codificador de hablante aprendible, Speech-02 puede centrarse en las características únicas de cada hablante, ya sean tonos, entonaciones o ritmos, reproduciéndolos con precisión, evitando así el rígido sonido característico de la síntesis tradicional.
Además, MiniMax introdujo el marco T2V, combinando descripciones de lenguaje natural abiertas con información etiquetada estructurada, lo que mejora aún más la flexibilidad y controlabilidad de la síntesis de voz. Esto significa que los usuarios no solo pueden proporcionar audios de referencia, sino también generar voces con la descripción simple de un sonido deseado, aumentando enormemente la multifuncionalidad del sistema.
El éxito de Speech-02 vuelve a confirmar el poderoso potencial de los grandes modelos nacionales en el campo de la síntesis de voz y muestra al mundo el rápido ascenso de China en la tecnología de inteligencia artificial.
Documento técnico: https://minimax-ai.github.io/tts_tech_report/