Le groupe de technologie audio de l'Intelligence créative de Xiaohongshu a récemment lancé un nouveau modèle de synthèse vocale dialoguée FireRedTTS-2, marquant une avancée importante dans la technologie de génération de dialogues. Ce modèle vise à résoudre certains problèmes existants dans les solutions actuelles de synthèse vocale dialoguée, tels que la faible flexibilité, les erreurs de prononciation fréquentes, les changements de locuteur instables et le manque de naturel dans le rythme.

FireRedTTS-2 a amélioré ses modules principaux, en particulier le encodeur de parole discret et le modèle de synthèse texte-voix, pour améliorer globalement la qualité de la synthèse. Dans diverses évaluations subjectives et objectives, FireRedTTS-2 montre un niveau exceptionnel au sein de l'industrie, offrant ainsi une solution optimale pour la synthèse de dialogues à plusieurs locuteurs. Son rapport technique a été publié sur arXiv et peut être expérimenté via un démo spécifique et un lien vers le code.
Un point fort notable de FireRedTTS-2 est sa nature naturelle. Le modèle peut saisir précisément des détails tels que l'accent, l'émotion et les pauses, offrant une qualité sonore naturelle et fluide. Par rapport aux modèles de génération de dialogues fermés, FireRedTTS-2 peut non seulement produire des audios de podcasts de haute qualité, mais aussi supporter la fonction de clonage de voix. En fournissant simplement un exemple de parole par locuteur, le modèle peut imiter sa voix et son style de parole, générant automatiquement tout le dialogue. Cette fonction lui confère une forte compétitivité dans le domaine de la génération de dialogues ouverts.
Lors de l'entraînement, FireRedTTS-2 prend en charge plusieurs langues (y compris le chinois, l'anglais, le japonais, le coréen et le français), et utilise un encodeur de parole discret à faible taux d'échantillonnage pour améliorer la vitesse et la stabilité de la synthèse. De plus, l'architecture du modèle utilisant deux Transformers permet une synthèse plus naturelle et plus cohérente. En outre, FireRedTTS-2 peut personnaliser la voix avec peu de données, s'adaptant rapidement à différents scénarios d'application.
Le lancement de FireRedTTS-2 offre non seulement une solution industrielle pour les podcasts d'IA et les applications de synthèse de dialogues, mais ouvre également de nouvelles possibilités pour l'innovation à l'intérieur et à l'extérieur de l'industrie. À l'avenir, l'équipe continuera d'optimiser ce modèle, d'ajouter le nombre de locuteurs et de langues pris en charge, et d'explorer davantage de fonctions d'insertion d'effets sonores contrôlables, afin de répondre aux besoins croissants du marché.
Lien vers le code : https://github.com/FireRedTeam/FireRedTTS2
Points clés :
🎤 FireRedTTS-2 est un nouveau modèle de synthèse vocale dialoguée développé par le groupe de technologie audio de l'Intelligence créative de Xiaohongshu, visant à améliorer la qualité et la naturel de la synthèse.
🗣️ Le modèle possède la capacité de cloner la voix, pouvant générer des dialogues naturels à plusieurs locuteurs avec peu d'exemples.
🌐 Il prend en charge plusieurs langues et un encodeur de parole discret à faible taux d'échantillonnage, améliorant ainsi la vitesse et la stabilité de la synthèse, adaptant ainsi divers scénarios d'application.







