OuteTTS-0.2-500M es un modelo de síntesis de texto a voz basado en Qwen-2.5-0.5B, entrenado en un conjunto de datos más grande. Esto ha resultado en mejoras significativas en precisión, naturalidad, vocabulario, capacidad de clonación de voz y soporte multilingüe. El entrenamiento del modelo ha sido posible gracias a la subvención de GPU proporcionada por Hugging Face.