NaturalSpeech 3 zielt darauf ab, die Qualität, Ähnlichkeit und den Rhythmus der Sprachsynthese zu verbessern, indem verschiedene Eigenschaften der Sprache (wie Inhalt, Rhythmus, Klangfarbe und akustische Details) zerlegt und separat generiert werden. Das System verwendet einen neuronalen Kodierer-Dekoder mit faktorisierter Vektorquantisierung (FVQ), um Sprachwellenformen zu entkoppeln, und implementiert ein faktorisiertes Diffusionsmodell, um die Eigenschaften jedes Unterraums basierend auf entsprechenden Hinweisen zu erzeugen.