L'équipe de recherche de Google a publié E3TTS, un modèle texte-à-parole (TTS) de pointe, performant et direct. E3TTS utilise les modèles BERT et diffusion UNet pour générer directement des formes d'ondes audio à partir de texte. Il prend en charge plusieurs langues et les tâches à échantillon zéro. Les expériences ont démontré que ses performances se rapprochent de celles des systèmes TTS neuronaux les plus avancés. Ceci représente une innovation majeure dans le domaine de la synthèse vocale, améliorant la qualité et l'efficacité, et ouvrant de nouvelles perspectives pour les applications vocales de l'IA.
Google lance E3TTS : un modèle texte-à-parole de haute qualité

站长之家
Cet article provient d'AIbase Daily
Bienvenue dans la section [AI Quotidien] ! Voici votre guide pour explorer le monde de l'intelligence artificielle chaque jour. Chaque jour, nous vous présentons les points forts du domaine de l'IA, en mettant l'accent sur les développeurs, en vous aidant à comprendre les tendances technologiques et à découvrir des applications de produits IA innovantes.