Xiaohongshu veröffentlicht das neue Dialog-Synthesemodell FireRedTTS-2 zur Unterstützung der AI-Podcast-Erstellung

AIbase基地

Veröffentlicht amKI-Nachrichten und -Informationen · 4 Minuten Lesezeit · Sep 15, 2025

Das Team für kreative Audio-Technologie von Xiaohongshu hat kürzlich ein neues Sprachsynthesemodell namens FireRedTTS-2 vorgestellt, was einen weiteren wichtigen Fortschritt in der Technologie der Dialogsynthese darstellt. Das Modell zielt darauf ab, einige Probleme der bestehenden Dialogsyntheselösungen zu lösen, wie beispielsweise geringe Flexibilität, häufige Aussprache-Fehler, instabile Sprecherwechsel und unnatürliche Rhythmik.

FireRedTTS-2 verbessert seine Kernmodule, insbesondere den diskreten Sprachencoder und das Text-to-Speech-Modell, um die Synthesequalität zu erhöhen. In verschiedenen objektiven und subjektiven Bewertungen zeigt FireRedTTS-2 führende Leistungen im Bereich und bietet eine optimierte Lösung für Dialogsynthesen mit mehreren Sprechern. Die technische Berichtsdatei ist auf arXiv veröffentlicht worden und kann über spezielle Demo- und Code-Links ausprobiert werden.

Eine bemerkenswerte Eigenschaft von FireRedTTS-2 ist die natürliche Klangqualität. Das Modell kann Details wie Betonung, Emotionen und Pausen präzise erfassen und erzeugt einen natürlichen und flüssigen Klang. Im Vergleich zu geschlossenen Dialogsynthesemodelle kann FireRedTTS-2 nicht nur hochwertige Podcast-Audios generieren, sondern unterstützt auch die Funktion der Stimmen-Klonung. Mit nur einem kurzen Sprachsample pro Sprecher kann das Modell dessen Stimme und Sprechgewohnheiten nachahmen und ganze Dialoge automatisch erstellen. Diese Funktion macht es in der Open-Source-Dialogsynthese sehr wettbewerbsfähig.

Während des Trainings unterstützt FireRedTTS-2 nicht nur mehrere Sprachen (einschließlich Chinesisch, Englisch, Japanisch, Koreanisch und Französisch), sondern verwendet auch einen niedrigen Rahmenrate-diskreten Sprachencoder, um die Geschwindigkeit und Stabilität der Synthese zu erhöhen. Zudem wird ein Architektur mit zwei Transformer-Modellen eingesetzt, um die Sprachsynthese natürlicher und zusammenhängender zu machen. Darüber hinaus ermöglicht FireRedTTS-2 mit nur wenigen Daten eine schnelle Anpassung an verschiedene Anwendungsszenarien.

Die Einführung von FireRedTTS-2 bietet nicht nur eine industrielle Lösung für AI-Podcasts und Dialogsyntheseanwendungen, sondern öffnet auch neue Möglichkeiten für Innovationen innerhalb und außerhalb der Branche. In Zukunft wird das Team das Modell weiter optimieren, die Anzahl der unterstützten Sprecher und Sprachen erhöhen und weitere kontrollierbare Sound-Effekte integrieren, um den wachsenden Marktanforderungen gerecht zu werden.

Code-Link: https://github.com/FireRedTeam/FireRedTTS2

Zusammenfassung:
🎤 FireRedTTS-2 ist ein neues Sprachsynthesemodell, das vom Team für kreative Audio-Technologie von Xiaohongshu entwickelt wurde, mit dem die Qualität und Natürlichkeit der Sprachsynthese verbessert werden sollen.
🗣️ Das Modell besitzt die Fähigkeit zur Stimmenklopfung und kann natürliche Dialoge mit mehreren Sprechern erzeugen, indem es nur wenige Sprachbeispiele pro Sprecher benötigt.
🌐 Es unterstützt verschiedene Sprachen und einen diskreten Sprachencoder mit niedriger Rahmendichte, um die Geschwindigkeit und Stabilität der Sprachsynthese zu erhöhen und für vielfältige Anwendungsszenarien geeignet zu sein.

FireRedTTS-2 Dialog-Synthesemodell AI-Neologismus XiaohongshuIntelligenteAudio-Technologie-Team

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Willkommen im Bereich [KI-Tagesbericht]! Hier ist Ihr Leitfaden, um jeden Tag die Welt der künstlichen Intelligenz zu erkunden. Jeden Tag präsentieren wir Ihnen die Hotspots im KI-Bereich, konzentrieren uns auf Entwickler und helfen Ihnen, technologische Trends zu erkennen und innovative KI-Produktanwendungen zu verstehen.

—— Erstellt von der AIbase-Tagesberichtgruppe

Empfohlene verwandte KI-Nachrichten

HYPERCLOUD stellt das erste interaktive AI-Podcast in China vor, bei dem Benutzer jederzeit Fragen stellen können

Tencent Hunyuan startet ersten interaktiven KI-Podcast in China. Nutzer können per Sprache oder Text live Fragen an Moderatoren und Gäste stellen, was die Einseitigkeit traditioneller Podcasts durchbricht und Interaktivität sowie Informationszugang verbessert.....

Oct 29, 2025

AI-Tageszeitung: Douyin veröffentlicht ein vollautomatisches System für Mehrpersonen-Sprechersysteme; Adobe Firefly Image 5 erhebliche Verbesserungen; Soul- Sprachmodell SoulX-Podcast wird vorgestellt

Das Sprachteam von Douyin stellt eine vollautomatische AI-Mehrpersonen-Hörspiel-Produktionsmethode vor, die Romane automatisch in Mehrpersonen-Sprecherspiele umwandeln kann. Die Genauigkeit der Rollenerkennung erreicht 98 % und ist mit dem Niveau professioneller Hörspiele vergleichbar, wodurch die Effizienz der Produktion von AI-Hörinhalten erheblich gesteigert wird.

Oct 29, 2025

Qualcomm dringt in den Datenbank-Markt ein! Einführung der AI200/AI250-Chips mit Ziel Nvidia, Aktienkurs steigt um 20% an einem Tag

Qualcomm hat zwei Cloud-AI-Inferring-Chips, AI200 und AI250, vorgestellt und plant deren kommerzielle Nutzung im Jahr 2026 bzw. 2027. Dies markiert den Übergang von Endgeräte-Chips zu einer vollständigen AI-Infrastruktur. Die Nachricht führte zu einem Anstieg des Aktienkurses um mehr als 20% an einem Tag und ist der größte Anstieg seit 2019. Im Gegensatz zur allseitigen Strategie von Nvidia konzentriert sich Qualcomm auf den Markt für große Modell-Inferring und betont die Vorteile der Energieeffizienz und Kosten.

Oct 29, 2025

100

NVIDIA präsentiert eine revolutionäre AI-Rechenzentrum-Design, um leistungsstarke Berechnungen zu unterstützen

Bei der GTC-Messe 2025 stellte NVIDIA das Designkonzept 'Omniverse DSX Blueprint' für gigawattgroße AI-Rechenzentren vor und bezeichnete es als 'AI-Fabrik'. Dieses Konzept basiert auf dem Omniverse-Framework und unterstützt verschiedene Größen von 100 Millionen bis 1 Milliarde Watt. Es soll die effiziente Ausbildung und Ausführung großer KI-Modelle ermöglichen und den wachsenden Anforderungen an KI-Berechnungen gerecht werden. Es handelt sich um einen wichtigen Fortschritt in der Infrastruktur für künstliche Intelligenz.

Oct 29, 2025

Liu Li, vice-président de Douyin : La technologie d'IA aide à lutter contre la désinformation et à créer un environnement fiable sur la plateforme

L'Xinhua rapporte le problème des fausses nouvelles créées par l'intelligence artificielle. Liu Li, vice-président de Douyin, a répondu qu'une IA est un double tranchant : bien qu'elle puisse faciliter la désinformation, Douyin utilise l'intelligence artificielle pour lutter contre la désinformation, en développant des entités intelligentes qui recherchent rapidement les informations autorisées pour démentir les rumeurs.

Oct 29, 2025

Die AI-Audio-Serie-Revolution bricht aus! Doubao präsentiert ein automatisches Mehrpersonen-Stimmen-System mit einer Erkennungspräzision von 98 %, die professionellen Hörspielen in nichts nachsteht

Das Doubao-Stimme-Team hat eine "automatisierte Produktion für AI-Mehrpersonen-Audio-Serien" vorgestellt, die die gesamte Produktionskette vom Roman-Text bis zum fertigen Hörspiel vollständig automatisiert. Keine Stimmenaufnahme, Schnitt oder menschliche Intervention erforderlich, was zu erheblichen Kosteneinsparungen und Effizienzsteigerungen führt. Das Ergebnis ist nahe an professionelles Niveau, wobei die Präzision der Rollenerkennung 98 % erreicht.

Oct 29, 2025

Ehemaliger Leiter der AI-Produkte bei ByteDance Jiansheng Liu gründet Unternehmen und stellt einen Marketing-Multimodal-Agent vor

Ehemaliger Leiter der AI-Produkte bei ByteDance, Liu Liaoqian, gründete das Unternehmen 'Extremes Kontext' und konzentriert sich auf die Entwicklung eines Marketing-Multimodal-Agents. Dank seiner reichen Erfahrung im Bereich AIGC schloss er schnell eine Finanzierungsrunde von mehreren Millionen Dollar ab. Liu Liaoqian arbeitete zuvor bei Tencent und ByteDance und beschäftigte sich seit 2019 mit AIGC-Technologien, was Aufmerksamkeit in der Branche erregte.

Oct 29, 2025

SoulX-Podcast-Modell der Soul-Sprachtechnologie: Schockierende Veröffentlichung des 90-minütigen ununterbrochenen Podcasts - AI-Sprachrevolution wird erneut verbessert

SoulX-Podcast, ein Sprachmodell für Podcasts, erzeugt hochrealistische Stimmen. Es unterstützt lange Dauer, mehrere Sprecher und Sprachen, mit durchgängiger Qualität über 90 Minuten.....

Oct 29, 2025

Google stellt AI-Marketing-Tool Pomelli vor: Automatisches Erstellen von Markeninhalten mit nur einer Webadresse

Google stellt Pomelli vor, ein KI-Marketingtool, das automatisch maßgeschneiderte Inhalte für Websites erstellt. Ideal für KMU, um digitale Marketinglösungen einfach zu nutzen.....

Oct 29, 2025

180

360 veröffentlicht den weltweit ersten L2-L4-Stack-Intelligenzplattform! Die AI-Umstellung für Regierung und Unternehmen erreicht eine Ära des „Out-of-the-box“-Betriebs

Die 360 Gruppe veröffentlichte eine unternehmensrelevante Intelligenzplattform und stellte das weltweit erste Intelligenz-Betriebssystem vor, das L2 bis L4 abdeckt. Zudem wurde die SEAF-Intelligenzfabrik aktualisiert. Die Plattform zielt darauf ab, Regierungen und Unternehmen mit einer einheitlichen AI-Lösung zu versorgen und die Implementierung der Industrieanpassung von "0 auf 1" zu "1 auf 10" zu fördern.

Oct 29, 2025

120

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Brand Visibility

AI Brand Monitoring Tool

AI Search Visibility Checker

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Services​

AI Model Compatibility Checker

AI Deployment Calculator

Xiaohongshu veröffentlicht das neue Dialog-Synthesemodell FireRedTTS-2 zur Unterstützung der AI-Podcast-Erstellung

AIbase基地

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Empfohlene verwandte KI-Nachrichten

HYPERCLOUD stellt das erste interaktive AI-Podcast in China vor, bei dem Benutzer jederzeit Fragen stellen können

AI-Tageszeitung: Douyin veröffentlicht ein vollautomatisches System für Mehrpersonen-Sprechersysteme; Adobe Firefly Image 5 erhebliche Verbesserungen; Soul- Sprachmodell SoulX-Podcast wird vorgestellt

Qualcomm dringt in den Datenbank-Markt ein! Einführung der AI200/AI250-Chips mit Ziel Nvidia, Aktienkurs steigt um 20% an einem Tag

NVIDIA präsentiert eine revolutionäre AI-Rechenzentrum-Design, um leistungsstarke Berechnungen zu unterstützen

Liu Li, vice-président de Douyin : La technologie d'IA aide à lutter contre la désinformation et à créer un environnement fiable sur la plateforme

Die AI-Audio-Serie-Revolution bricht aus! Doubao präsentiert ein automatisches Mehrpersonen-Stimmen-System mit einer Erkennungspräzision von 98 %, die professionellen Hörspielen in nichts nachsteht

Ehemaliger Leiter der AI-Produkte bei ByteDance Jiansheng Liu gründet Unternehmen und stellt einen Marketing-Multimodal-Agent vor

SoulX-Podcast-Modell der Soul-Sprachtechnologie: Schockierende Veröffentlichung des 90-minütigen ununterbrochenen Podcasts - AI-Sprachrevolution wird erneut verbessert

Google stellt AI-Marketing-Tool Pomelli vor: Automatisches Erstellen von Markeninhalten mit nur einer Webadresse

360 veröffentlicht den weltweit ersten L2-L4-Stack-Intelligenzplattform! Die AI-Umstellung für Regierung und Unternehmen erreicht eine Ära des „Out-of-the-box“-Betriebs

Empfohlene verwandte KI-Nachrichten

HYPERCLOUD stellt das erste interaktive AI-Podcast in China vor, bei dem Benutzer jederzeit Fragen stellen können

AI-Tageszeitung: Douyin veröffentlicht ein vollautomatisches System für Mehrpersonen-Sprechersysteme; Adobe Firefly Image 5 erhebliche Verbesserungen; Soul- Sprachmodell SoulX-Podcast wird vorgestellt

Qualcomm dringt in den Datenbank-Markt ein! Einführung der AI200/AI250-Chips mit Ziel Nvidia, Aktienkurs steigt um 20% an einem Tag

NVIDIA präsentiert eine revolutionäre AI-Rechenzentrum-Design, um leistungsstarke Berechnungen zu unterstützen

Liu Li, vice-président de Douyin : La technologie d'IA aide à lutter contre la désinformation et à créer un environnement fiable sur la plateforme

Die AI-Audio-Serie-Revolution bricht aus! Doubao präsentiert ein automatisches Mehrpersonen-Stimmen-System mit einer Erkennungspräzision von 98 %, die professionellen Hörspielen in nichts nachsteht

Ehemaliger Leiter der AI-Produkte bei ByteDance Jiansheng Liu gründet Unternehmen und stellt einen Marketing-Multimodal-Agent vor

SoulX-Podcast-Modell der Soul-Sprachtechnologie: Schockierende Veröffentlichung des 90-minütigen ununterbrochenen Podcasts - AI-Sprachrevolution wird erneut verbessert

Google stellt AI-Marketing-Tool Pomelli vor: Automatisches Erstellen von Markeninhalten mit nur einer Webadresse

360 veröffentlicht den weltweit ersten L2-L4-Stack-Intelligenzplattform! Die AI-Umstellung für Regierung und Unternehmen erreicht eine Ära des „Out-of-the-box“-Betriebs

GEO Services