Llasa est un modèle de base texte-parole (TTS) basé sur le framework Llama, conçu pour les tâches de synthèse vocale à grande échelle. Ce modèle a été entraîné à l'aide de 160 000 heures de données vocales tokenisées et possède une capacité de génération linguistique efficace et une prise en charge multilingue. Ses principaux avantages incluent de puissantes capacités de synthèse vocale, un faible coût d'inférence et une compatibilité flexible avec les frameworks. Ce modèle convient aux scénarios éducatifs, ludiques et commerciaux et peut fournir aux utilisateurs des solutions de synthèse vocale de haute qualité. Ce modèle est actuellement disponible gratuitement sur Hugging Face, dans le but de promouvoir le développement et l'application des technologies de synthèse vocale.