O NaturalSpeech 3 visa melhorar a qualidade, similaridade e prosódia da síntese de voz, decompondo diferentes atributos da fala (como conteúdo, prosódia, timbre e detalhes acústicos) e gerando-os separadamente. O sistema utiliza um codificador-decodificador neural com vetorização quantizada decomposta (FVQ) para desacoplar a forma de onda de áudio e propõe um modelo de difusão decomposto para gerar os atributos de cada subspaço com base em prompts correspondentes.