O VALL-E 2 é um modelo de síntese de voz lançado pelo Microsoft Research Asia. Por meio das tecnologias de amostragem perceptiva repetida e modelagem de codificação em grupo, ele melhora significativamente a robustez e a naturalidade da síntese de voz. O modelo consegue converter texto escrito em fala natural, sendo aplicável em diversas áreas como educação, entretenimento e comunicação multilíngue, desempenhando um papel importante na melhoria da acessibilidade e no fortalecimento da comunicação interlinguística.