Nuevo avance en la síntesis de voz de código abierto! El modelo TTS recientemente lanzado, Muyan-TTS, está diseñado específicamente para escenarios como podcasts, audiolibros y videos largos. Cuenta con capacidades de síntesis de voz sin muestras, generación rápida y lectura coherente, siendo uno de los modelos más adecuados para la generación masiva de audio largo.
Muyan-TTS está preentrenado con más de 100.000 horas de datos de podcasts, pudiendo generar 1 segundo de audio de alta calidad en tan solo 0,33 segundos. Es capaz de leer texto continuo durante varios minutos sin interrupciones, manteniendo una voz natural y fluida. Además, soporta personalización del hablante, permitiendo clonar cualquier voz para generar contenido con tonos e intonaciones personalizados.
El modelo ya está disponible en Hugging Face, compatible con implementación local, lo que facilita a los desarrolladores realizar inferencias sin conexión. Se adapta a diversas aplicaciones, como la generación de podcasts, creación de audiolibros, doblaje de videos en inglés, lectura por IA de personajes y notificación en altavoces inteligentes, mejorando significativamente la eficiencia de producción de contenido.
Los desarrolladores interesados pueden visitar Hugging Face para obtener los pesos del modelo y el código de ejemplo, comenzando su viaje de creación de voz con IA.
Dirección de GitHub: https://github.com/MYZY-AI/Muyan-TTS
Dirección de HF: https://huggingface.co/MYZY-AI/Muyan-TTS