E3TTS : Un nouveau modèle texte-à-parole de Google

L'équipe de recherche de Google a publié E3TTS, un modèle texte-à-parole (TTS) de pointe, performant et direct. E3TTS utilise les modèles BERT et diffusion UNet pour générer directement des formes d'ondes audio à partir de texte. Il prend en charge plusieurs langues et les tâches à échantillon zéro. Les expériences ont démontré que ses performances se rapprochent de celles des systèmes TTS neuronaux les plus avancés. Ceci représente une innovation majeure dans le domaine de la synthèse vocale, améliorant la qualité et l'efficacité, et ouvrant de nouvelles perspectives pour les applications vocales de l'IA.