Das Team für kreative Audio-Technologie von Xiaohongshu hat kürzlich ein neues Sprachsynthesemodell namens FireRedTTS-2 vorgestellt, was einen weiteren wichtigen Fortschritt in der Technologie der Dialogsynthese darstellt. Das Modell zielt darauf ab, einige Probleme der bestehenden Dialogsyntheselösungen zu lösen, wie beispielsweise geringe Flexibilität, häufige Aussprache-Fehler, instabile Sprecherwechsel und unnatürliche Rhythmik.

image.png

FireRedTTS-2 verbessert seine Kernmodule, insbesondere den diskreten Sprachencoder und das Text-to-Speech-Modell, um die Synthesequalität zu erhöhen. In verschiedenen objektiven und subjektiven Bewertungen zeigt FireRedTTS-2 führende Leistungen im Bereich und bietet eine optimierte Lösung für Dialogsynthesen mit mehreren Sprechern. Die technische Berichtsdatei ist auf arXiv veröffentlicht worden und kann über spezielle Demo- und Code-Links ausprobiert werden.

Eine bemerkenswerte Eigenschaft von FireRedTTS-2 ist die natürliche Klangqualität. Das Modell kann Details wie Betonung, Emotionen und Pausen präzise erfassen und erzeugt einen natürlichen und flüssigen Klang. Im Vergleich zu geschlossenen Dialogsynthesemodelle kann FireRedTTS-2 nicht nur hochwertige Podcast-Audios generieren, sondern unterstützt auch die Funktion der Stimmen-Klonung. Mit nur einem kurzen Sprachsample pro Sprecher kann das Modell dessen Stimme und Sprechgewohnheiten nachahmen und ganze Dialoge automatisch erstellen. Diese Funktion macht es in der Open-Source-Dialogsynthese sehr wettbewerbsfähig.

Während des Trainings unterstützt FireRedTTS-2 nicht nur mehrere Sprachen (einschließlich Chinesisch, Englisch, Japanisch, Koreanisch und Französisch), sondern verwendet auch einen niedrigen Rahmenrate-diskreten Sprachencoder, um die Geschwindigkeit und Stabilität der Synthese zu erhöhen. Zudem wird ein Architektur mit zwei Transformer-Modellen eingesetzt, um die Sprachsynthese natürlicher und zusammenhängender zu machen. Darüber hinaus ermöglicht FireRedTTS-2 mit nur wenigen Daten eine schnelle Anpassung an verschiedene Anwendungsszenarien.

Die Einführung von FireRedTTS-2 bietet nicht nur eine industrielle Lösung für AI-Podcasts und Dialogsyntheseanwendungen, sondern öffnet auch neue Möglichkeiten für Innovationen innerhalb und außerhalb der Branche. In Zukunft wird das Team das Modell weiter optimieren, die Anzahl der unterstützten Sprecher und Sprachen erhöhen und weitere kontrollierbare Sound-Effekte integrieren, um den wachsenden Marktanforderungen gerecht zu werden.

  • Code-Link: https://github.com/FireRedTeam/FireRedTTS2 

Zusammenfassung:

🎤 FireRedTTS-2 ist ein neues Sprachsynthesemodell, das vom Team für kreative Audio-Technologie von Xiaohongshu entwickelt wurde, mit dem die Qualität und Natürlichkeit der Sprachsynthese verbessert werden sollen.  

🗣️ Das Modell besitzt die Fähigkeit zur Stimmenklopfung und kann natürliche Dialoge mit mehreren Sprechern erzeugen, indem es nur wenige Sprachbeispiele pro Sprecher benötigt.  

🌐 Es unterstützt verschiedene Sprachen und einen diskreten Sprachencoder mit niedriger Rahmendichte, um die Geschwindigkeit und Stabilität der Sprachsynthese zu erhöhen und für vielfältige Anwendungsszenarien geeignet zu sein.