OuteTTS-0.2-500MはQwen-2.5-0.5Bを基盤としたテキスト音声合成モデルであり、より大規模なデータセットで訓練されたことで、正確性、自然さ、語彙数、音声クローン機能、多言語対応において顕著な向上を実現しました。本モデルの訓練はHugging FaceによるGPU支援のおかげで実現しました。