面倒なアライメントはもう不要!F5-TTSでテキスト読み上げが驚くほど簡単になります!
上海交通大学、ケンブリッジ大学、そして吉利汽車研究院の研究チームが、F5-TTSという新しいテキスト読み上げ(TTS)システムを発表しました。このシステムの最大の特徴は、自己回帰ではない方法を採用し、フローマッチングと拡散トランスフォーマー(DiT)を組み合わせることで、従来のTTSモデルにおける複雑な手順を簡素化することに成功した点です。従来のTTSモデルでは、複雑な時間モデル化、音素アライメント、そして特殊なテキストエンコーディングなどが求められ、合成プロセスが複雑化していました。