NaturalSpeech 3は、音声の様々な属性(内容、韻律、音色、音響的詳細など)を分解し、それぞれを個別に生成することで、音声合成の品質、類似性、韻律を向上させることを目指しています。このシステムは、分解ベクトル量子化(FVQ)を用いて音声波形を解きほぐすニューラルコーデックと、対応するプロンプトに基づいて各部分空間の属性を生成する分解型拡散モデルを設計しています。