VALL-E 2 es un modelo de síntesis de voz presentado por Microsoft Research Asia. A través de técnicas de muestreo perceptivo repetido y modelado de codificación por grupos, mejora significativamente la robustez y la naturalidad de la síntesis de voz. Este modelo puede convertir texto escrito en voz natural, siendo aplicable en educación, entretenimiento, comunicación multilingüe y otros campos, contribuyendo a mejorar la accesibilidad y la comunicación entre idiomas.