StyleTTS 2 es un modelo de texto a voz (TTS) que utiliza grandes modelos de lenguaje de voz (SLM) para la difusión de estilos y entrenamiento adversario, logrando una síntesis TTS de nivel humano. Modela el estilo como una variable aleatoria latente mediante un modelo de difusión para generar el estilo más adecuado al texto sin necesidad de referencias de voz. Además, utilizamos SLM preentrenados a gran escala (como WavLM) como discriminadores y combinamos nuestro innovador modelado de duración diferenciable para un entrenamiento de extremo a extremo, mejorando así la naturalidad del habla. StyleTTS 2 supera las grabaciones humanas en el conjunto de datos de un solo hablante LJSpeech y se compara con ellas en el conjunto de datos de múltiples hablantes VCTK, según la evaluación de hablantes nativos de inglés. Además, al entrenarse en el conjunto de datos LibriTTS, nuestro modelo supera a los modelos de extensión de muestra cero públicamente disponibles previamente. Al mostrar el potencial de la difusión de estilos y el entrenamiento adversario con SLM de gran escala, este trabajo logra una síntesis TTS de nivel humano en conjuntos de datos de uno y múltiples hablantes.