El 3 de julio, el instituto francés de investigación en inteligencia artificial Kyutai Labs anunció el lanzamiento de su última tecnología de síntesis de voz a partir de texto (TTS), llamada Kyutai TTS, ofreciendo una solución eficiente y en tiempo real para la generación de voz a desarrolladores e entusiastas de la IA. Kyutai TTS destaca por su bajo latencia y sonido de alta fidelidad, admitiendo la transmisión de texto en flujo, lo que permite comenzar a generar audio sin necesidad de tener todo el texto completo, especialmente adecuado para escenarios de interacción en tiempo real.
Kyutai TTS muestra un rendimiento excepcional. Con una sola tarjeta gráfica NVIDIA L40S, este modelo puede procesar 32 solicitudes simultáneamente con una latencia de solo 350 milisegundos. Además, el sistema no solo genera audio de alta calidad, sino que también puede emitir marcas de tiempo precisas para cada palabra, facilitando la generación de subtítulos en tiempo real o aplicaciones interactivas, como la función de manejo de interrupciones en la plataforma Unmute.
En cuanto al soporte de idiomas y la evaluación de calidad, Kyutai TTS actualmente admite inglés y francés, con tasas de error de palabras (WER) de 2,82 y 3,29 respectivamente, demostrando una alta precisión. La similitud del hablante alcanza el 77,1% (inglés) y el 78,7% (francés), asegurando que la voz sea natural y cercana a las muestras originales. El modelo también puede manejar artículos largos, superando la restricción tradicional de 30 segundos de los sistemas TTS, lo que lo hace ideal para la generación de contenido largo como noticias o libros.
Kyutai TTS utiliza una arquitectura de modelado de flujo de retardo (DSM), combinada con un servidor en Rust para realizar un procesamiento por lotes eficiente. Ya está disponible en GitHub y Hugging Face con código abierto y pesos del modelo, ayudando a desarrolladores de todo el mundo a impulsar la innovación en la tecnología de voz.