NaturalSpeech 3 busca mejorar la calidad, la similitud y el ritmo de la síntesis de voz mediante la descomposición de las diferentes propiedades del habla (como contenido, ritmo, timbre y detalles acústicos) y su generación por separado. El sistema diseña un codificador-decodificador neuronal que utiliza la cuantificación vectorial descompuesta (FVQ) para desacoplar la forma de onda de voz y propone un modelo de difusión descompuesto para generar las propiedades de cada subespacio según las indicaciones correspondientes.