人手によるアノテーションからの呪縛を解き放つ!趣丸科技のMaskGCTモデル、10万時間データでAIに自ら話すことを学習させる
最近、趣丸科技はMaskGCTという新しい音声合成(TTS)モデルを発表しました。このモデルは音声品質、類似度、制御可能性において顕著な進歩を遂げ、従来の音声合成(TTS)のやり方を完全に覆し、AIが人工アノテーションへの依存から完全に解放され、真の意味で「独学」を実現しました。従来のTTSシステムは、甘やかされた子供のようなもので、一つ一つの言葉を人間が丁寧に教えなければなりませんでした。まずテキストと音声のアライメントを行い、次に各音節の長さを予測し、やっとぎこちなく合成することができました。