StyleTTS 2は、大規模音声言語モデル(SLMs)を用いたスタイル拡散と敵対的訓練により、人間レベルの音声合成を実現したテキスト音声変換(TTS)モデルです。拡散モデルを用いてスタイルを潜在的な確率変数としてモデル化することで、参照音声なしでテキストに最適なスタイルを生成します。さらに、大規模に事前学習されたSLMs(例:WavLM)を識別器として使用し、革新的な微分可能な継続時間モデリングと組み合わせたエンドツーエンドの学習を行うことで、音声の自然さを向上させています。StyleTTS 2は、単一話者LJSpeechデータセットにおいて人間の録音を超え、複数話者VCTKデータセットにおいてはそれと同等の性能を達成し、英語を母語とする評価者から認められています。さらに、LibriTTSデータセットで訓練された場合、以前公開されていたゼロショット拡張モデルを上回ります。本研究は、スタイル拡散と敵対的訓練、そして大規模SLMsの可能性を示すことで、単一話者および複数話者データセットにおいて人間レベルの音声合成を実現しました。