Com o avanço contínuo da tecnologia, a inteligência artificial deixou de ser apenas uma máquina fria e impessoal, tornando-se cada vez mais semelhante aos humanos. Imagine seu assistente inteligente não apenas falando mandarim fluentemente, mas também conversando com você em seu dialeto familiar – uma experiência muito mais acolhedora. A tecnologia Bailing-TTS está transformando essa imaginação em realidade.
No mundo da inteligência artificial, a tecnologia de conversão de texto em fala (Text-to-Speech, TTS) é um campo importante. Seu objetivo é permitir que máquinas convertam informações de texto em fala que soa como se fosse produzida por um ser humano. Com o rápido desenvolvimento de redes neurais e aprendizado profundo, já podemos treinar bancos de dados de voz de qualidade quase humana e desenvolver modelos TTS correspondentes. No entanto, a maioria dos sistemas existentes só consegue gerar fala não-dialetal, e a qualidade da fala ainda tem espaço para melhorias.
O surgimento da tecnologia Bailing-TTS marca um novo avanço na síntese de fala em dialeto. Essa tecnologia, baseada em um modelo de transformador autorregressivo multicamadas, gera fala em dialetos chineses a partir de texto usando um amplo conjunto de dados, incluindo dados ricos em dialetos, uma estratégia contínua de aprendizado semi-supervisionado, uma arquitetura de rede de especialistas mistos específica para dialetos e uma estratégia de treinamento em várias etapas.
A arquitetura do Bailing-TTS inclui várias partes-chave:
Aprendizado semi-supervisionado contínuo: promove o alinhamento fraco entre dois modos usando pares de tokens de texto e fala espontâneos e expressivos.
Arquitetura de rede de especialistas mistos específica para dialetos: uma arquitetura de especialistas mistos foi projetada para aprender representações unificadas de vários dialetos chineses e representações específicas para cada dialeto.
Técnica de extensão de treinamento posterior hierárquica baseada em aprendizado por reforço: gera fala de alta qualidade em vários dialetos chineses por meio de quatro etapas de treinamento, incluindo pré-treinamento, ajuste fino e uma estratégia baseada em aprendizado por reforço.
Os pesquisadores realizaram uma avaliação experimental completa do Bailing-TTS, incluindo detalhes de treinamento, conjuntos de dados de avaliação e métricas de avaliação. Os resultados da avaliação mostraram que a fala em dialeto gerada pelo Bailing-TTS se aproxima da fala humana em termos de naturalidade e qualidade.
O Bailing-TTS não apenas alcançou um avanço tecnológico, mas também possui amplas perspectivas de aplicação prática. Seja para fornecer experiências mais ricas em bate-papo ou para promover a disseminação da cultura dialetal, o Bailing-TTS mostra um enorme potencial.
Embora o Bailing-TTS já tenha alcançado resultados iniciais, ainda há espaço para exploração em áreas como síntese de fala emocional e suporte multimídia. Os pesquisadores planejam desenvolver a próxima geração de modelos Bailing-TTS para gerar áudio de alta qualidade (voz/música) a partir de entradas de vídeo e texto, e explorar a possibilidade de gerar simultaneamente áudio e vídeo de alta qualidade.
Endereço do projeto: https://top.aibase.com/tool/bailing-tts
Endereço do artigo: https://arxiv.org/pdf/2408.00284