Con el constante avance de la tecnología, la inteligencia artificial ya no es solo una máquina fría e impersonal, sino que se está volviendo cada vez más parecida a los humanos. Imagínese: su asistente inteligente no solo habla mandarín con fluidez, sino que también puede comunicarse con usted en su dialecto nativo. ¡Qué experiencia tan cálida! La tecnología Bailing-TTS está haciendo realidad esta visión.
En el mundo de la inteligencia artificial, la tecnología de texto a voz (Text-to-Speech, TTS) es un campo importante. Su objetivo es permitir que las máquinas conviertan información textual en voz que parezca humana. Con el rápido desarrollo de las redes neuronales y el aprendizaje profundo, ya podemos entrenar bancos de voz de calidad casi humana y desarrollar modelos TTS correspondientes. Sin embargo, la mayoría de los sistemas existentes solo pueden generar voz sin dialecto, y la calidad del audio aún puede mejorarse.
La aparición de la tecnología Bailing-TTS marca un nuevo avance en la síntesis de voz dialectal. Esta tecnología, basada en un modelo de transformador autorregresivo multicapa, genera voz en dialectos chinos a partir de texto mediante el entrenamiento con conjuntos de datos a gran escala que incluyen abundantes datos dialectales. Emplea una estrategia de aprendizaje semi-supervisado continuo, una arquitectura de red de expertos híbridos específica para dialectos y una estrategia de entrenamiento multietapa.
La arquitectura de Bailing-TTS incluye varias partes clave:
Aprendizaje semi-supervisado continuo: fomenta la alineación débil entre las dos modalidades mediante pares de tokens de texto y voz espontáneos y expresivos.
Arquitectura de red de expertos híbridos específica para dialectos: se diseñó una arquitectura de expertos híbridos para aprender una representación unificada de múltiples dialectos chinos y una representación específica para cada dialecto.
Técnica de extensión de post-entrenamiento jerárquico basada en aprendizaje por refuerzo: genera voz de alta calidad en varios dialectos chinos mediante cuatro etapas de entrenamiento, incluyendo pre-entrenamiento, ajuste fino y una estrategia basada en aprendizaje por refuerzo.
Los investigadores realizaron una exhaustiva evaluación experimental de Bailing-TTS, incluyendo detalles del entrenamiento, conjuntos de datos de evaluación e indicadores de evaluación. Los resultados de la evaluación muestran que la voz dialectal generada por Bailing-TTS se acerca a la calidad y naturalidad de la voz humana.
Bailing-TTS no solo representa un avance tecnológico, sino que también tiene un amplio potencial de aplicación práctica. Ya sea para ofrecer experiencias de chat más enriquecedoras o para promover la difusión de la cultura dialectal, Bailing-TTS muestra un enorme potencial.
Aunque Bailing-TTS ya ha logrado resultados preliminares, aún queda mucho por explorar en aspectos como la síntesis de voz emocional y el soporte multi-modal. Los investigadores planean desarrollar la próxima generación de modelos Bailing-TTS para generar audio de alta calidad (voz/música) a partir de entradas de video y texto, y explorar la posibilidad de generar simultáneamente audio y video de alta calidad.
Dirección del proyecto: https://top.aibase.com/tool/bailing-tts
Dirección del artículo: https://arxiv.org/pdf/2408.00284