Llasa es un modelo base de texto a voz (TTS) basado en el framework Llama, diseñado para tareas de síntesis de voz a gran escala. Este modelo se entrenó utilizando 160.000 horas de datos de voz tokenizados, y cuenta con una capacidad eficiente de generación de lenguaje y compatibilidad con múltiples idiomas. Sus principales ventajas incluyen una potente capacidad de síntesis de voz, bajo coste de inferencia y una flexibilidad de compatibilidad con frameworks. Este modelo es adecuado para escenarios educativos, de entretenimiento y comerciales, y puede proporcionar a los usuarios soluciones de síntesis de voz de alta calidad. Actualmente, este modelo se ofrece gratuitamente en Hugging Face, con el objetivo de impulsar el desarrollo y la aplicación de la tecnología de síntesis de voz.