A equipe de pesquisa do Google lançou o E3TTS, um modelo de texto para fala (text-to-speech) de alta qualidade e ponta a ponta. O E3TTS utiliza os modelos BERT e UNet de difusão para gerar diretamente formas de onda de áudio a partir de texto, suportando múltiplos idiomas e tarefas de amostra zero. Experimentos demonstram que seu desempenho se aproxima dos sistemas TTS neurais mais avançados, trazendo inovação para o campo da síntese de voz, melhorando a qualidade e a eficiência, e abrindo novas oportunidades para aplicativos de voz com IA.
Google lança E3TTS: modelo de texto para fala de alta qualidade

站长之家
Este artigo é do AIbase Daily
Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.