El reconocido emprendedor de inteligencia artificial Li Mu y su equipo Boson.ai han lanzado recientemente un nuevo modelo de gran tamaño de texto a voz (TTS) de código abierto: Higgs Audio v2. Este modelo no solo convierte texto en voz, sino que también cuenta con funciones como generación de diálogos multilingües, ajuste automático de entonación y clonación de voz, representando un gran avance en el campo de la síntesis de voz.

La potencia de Higgs Audio v2 radica en su capacidad multimodal, ya que no solo puede procesar información textual, sino que también puede comprender y generar voz para realizar tareas complejas. Por ejemplo, puede escribir una canción y cantarla con una voz específica, al mismo tiempo que se le agrega música de fondo, algo inimaginable en las tecnologías TTS anteriores.

image.png

Este modelo fue entrenado con hasta 10 millones de horas de datos de voz, garantizando un excelente rendimiento en diversos tests de referencia. Según la evaluación EmergentTTS-Eval, Higgs Audio v2 supera a GPT-4o-mini-tts en un 75,7% y un 55,7% respectivamente en las categorías de "emociones" y "preguntas". En pruebas tradicionales de TTS, el modelo también demostró un rendimiento extraordinario, convirtiéndose en un estándar en la industria.

image.png

En términos técnicos, Higgs Audio v2 utiliza métodos avanzados de procesamiento de datos, donde las señales de voz a 25 cuadros por segundo se convierten en secuencias de números mediante un segmentador de audio discretizado, capturando así con precisión las características semánticas y acústicas. Además, el arquitectura del modelo aprovecha modelos de lenguaje grandes preentrenados, lo que le da una fuerte capacidad para comprender el lenguaje y el contexto. Asimismo, el modelo posee la capacidad de aprendizaje contextual, pudiendo adaptarse rápidamente a nuevas tareas con simples indicaciones, logrando así la clonación de voz sin muestra previa.

image.png

En cuanto a aplicaciones, Higgs Audio v2 permite conversaciones de voz en tiempo real, ofreciendo interacciones naturales con baja latencia y expresión emocional, ideal para presentadores virtuales y asistentes de voz en tiempo real. Además, en la creación de contenido de audio, puede generar diálogos naturales y narraciones, brindando un fuerte apoyo para audiolibros, capacitación interactiva y relatos dinámicos. Finalmente, la función de clonación de voz le permite copiar voces específicas, abriendo nuevas posibilidades en los campos de entretenimiento y creatividad.