NaturalSpeech 3 vise à améliorer la qualité, la similarité et le rythme de la synthèse vocale en décomposant les différentes propriétés de la parole (telles que le contenu, le rythme, le timbre et les détails acoustiques) et en les générant séparément. Ce système conçoit un décodeur-encodeur neuronal utilisant la quantification vectorielle factorisée (FVQ) pour découpler les formes d'onde vocales, et propose un modèle de diffusion décomposé pour générer les attributs de chaque sous-espace en fonction des invites correspondantes.