Bailing-TTS es una serie de modelos de texto a voz (TTS) de gran tamaño desarrollados por el Laboratorio de IA de Giant Network, que se centra en la generación de voz en dialectos chinos de alta calidad. El modelo emplea un aprendizaje semi-supervisado continuo y una arquitectura Transformer específica, mediante un proceso de entrenamiento multifásico que alinea eficazmente las marcas de texto y voz, logrando una síntesis de voz de alta calidad en dialectos chinos. En los experimentos, Bailing-TTS ha demostrado un efecto de síntesis de voz que se acerca a la expresión natural humana, lo que tiene una importancia significativa para el campo de la síntesis de voz en dialectos.