NaturalSpeech 3: 自然な音声合成システム

站长之家は、分解コーデックと拡散モデルを採用した革新的な音声合成システム「NaturalSpeech 3」を報道しました。このシステムは、ゼロショット学習で自然な音声生成を実現します。

ニューラルコーデックを用いて音声波形を精密にモデル化することで、複数のベンチマークテストで優れた性能を示し、既存のTTSシステムを上回っています。

研究者らは、潜在的な悪用リスクに対処するために、合成音声検出モデルの強化を提案しており、これはマイクロソフトの責任あるAI原則に沿ったものです。