Modelo E3TTS da Google

A equipe de pesquisa do Google lançou o E3TTS, um modelo de texto para fala (text-to-speech) de alta qualidade e ponta a ponta. O E3TTS utiliza os modelos BERT e UNet de difusão para gerar diretamente formas de onda de áudio a partir de texto, suportando múltiplos idiomas e tarefas de amostra zero. Experimentos demonstram que seu desempenho se aproxima dos sistemas TTS neurais mais avançados, trazendo inovação para o campo da síntese de voz, melhorando a qualidade e a eficiência, e abrindo novas oportunidades para aplicativos de voz com IA.