Una startup de dos personas llamada Nari Labs ha lanzado Dia, un modelo de texto a voz (TTS) con 1.600 millones de parámetros, diseñado para generar conversaciones naturales directamente a partir de indicaciones de texto. Su cofundador, Toby Kim, afirma que Dia supera en rendimiento a productos propietarios de competidores como ElevenLabs, a la función de generación de podcasts de NotebookLM de Google, y podría incluso representar una amenaza para el gpt-4o-mini-tts recientemente lanzado por OpenAI.

Kim declaró en la red social X que Dia es comparable en calidad a la función de podcasts de NotebookLM y superior a los modelos abiertos de ElevenLabs Studio y Sesame. Reveló que el modelo se construyó con "cero financiación" y enfatizó que no eran expertos en inteligencia artificial al principio, sino que iniciaron este proyecto por su pasión por la función de podcasts de NotebookLM. Intentaron todas las API de TTS del mercado, pero ninguna era lo suficientemente natural. Kim agradeció a Google por permitirles usar sus chips de unidades de procesamiento de tensor (TPU) para entrenar Dia.

Actualmente, el código y los pesos de Dia están disponibles en código abierto en Hugging Face y GitHub para que los usuarios los descarguen e implementen localmente. Los usuarios individuales también pueden probarlo en línea en Hugging Face Space.

Control de voz

Control avanzado y más funciones personalizables

Dia admite funciones detalladas que incluyen tono emocional, etiquetas de orador y señales de audio no verbales como (risa), (tos), (carraspeo), todo ello solo a través de texto plano. Los ejemplos de Nari Labs muestran que Dia puede interpretar correctamente estas etiquetas, mientras que otros modelos a menudo no las admiten de forma fiable. El modelo actualmente solo admite inglés; el sonido varía en cada ejecución a menos que el usuario modifique la semilla de generación o proporcione una indicación de audio para la clonación de voz.

Nari Labs proporciona en su sitio web ejemplos comparativos de Dia con ElevenLabs Studio y Sesame CSM-1B, mostrando la superioridad de Dia en el manejo del ritmo natural, las expresiones no verbales, los diálogos con múltiples emociones, el contenido con ritmos complejos y la continuación del estilo de voz mediante indicaciones de audio. Nari Labs señala que la demostración de Sesame podría haber utilizado una versión interna con más parámetros.

Acceso al modelo y especificaciones técnicas

Los desarrolladores pueden obtener Dia desde el repositorio de GitHub de Nari Labs y la página del modelo de Hugging Face. El modelo se basa en PyTorch2.0+ y CUDA12.6, y requiere aproximadamente 10 GB de memoria de video. Nari Labs planea ofrecer en el futuro soporte para CPU y una versión cuantificada.

Dia se distribuye bajo la licencia Apache2.0 de código abierto, que permite su uso comercial. Nari Labs enfatiza la prohibición de su uso para fines inmorales y alienta la experimentación responsable. El desarrollo del proyecto ha sido apoyado por Google TPU Research Cloud, el programa ZeroGPU de Hugging Face y otras investigaciones relacionadas. Nari Labs solo cuenta con dos ingenieros, pero invita activamente a la comunidad a contribuir.