OuteTTS-0.2-500M est un modèle de synthèse vocale texte-à-parole basé sur Qwen-2.5-0.5B. Entraîné sur un ensemble de données plus vaste, il offre des améliorations significatives en termes de précision, de naturalité, de vocabulaire, de capacité de clonage vocal et de prise en charge multilingue. Ce modèle a bénéficié du soutien de Hugging Face sous forme d'un don de ressources GPU, ce qui a permis son entraînement.