Eine neue Durchbruchserfolge wurde in der Open-Source-Text-zu-Stimme (TTS)-Technologie erzielt! Das kürzlich veröffentlichte Muyan-TTS, ein speziell für Szenarien wie Podcasts, Hörbücher und Langform-Videos entwickeltes Open-Source-TTS-Modell, bietet nahezu spurlose Stimmen-Synthese, ultrarapiden Generierung und hochkohärente Lesefähigkeiten. Es ist derzeit eines der besten Modelle zum Batch-Erzeugen langer Audiomaterialien.
Muyan-TTS wurde mit über 100.000 Stunden an Podcast-Daten vorausgebildet. Es kann in nur 0,33 Sekunden eine Sekunde qualitativ hochwertigen Audiomaterials erzeugen und mehrere Minuten Text mit natürlichem und flüssigem Sprachfluss nahtlos vorlesen. Darüber hinaus bietet es Sprecherpersonalisierung, sodass jede Stimme nachgeahmt und mit einzigartigen Tonfall und Rhythmen mit einem Klick generiert werden kann.
Das Modell ist auf Hugging Face verfügbar und unterstützt Offline-Bereitstellung. Entwickler können lokal Inferenz durchführen und es leicht auf verschiedene Anwendungen wie Podcast-Erstellung, Hörbuchproduktion, Englisch-Video-Dubbing, AI-Charakter-Narration, intelligente Sprachsteuerung und vieles mehr anpassen, was die Produktionseffizienz deutlich steigert.
Interessierte Entwickler können sich auf Hugging Face mit den Modellgewichten und Beispielcode versorgen und ihre Reise in die AI-gesteuerte Stimmenerstellung beginnen.
GitHub-Open-Source-Adresse: https://github.com/MYZY-AI/Muyan-TTS
HF-Modelladresse: https://huggingface.co/MYZY-AI/Muyan-TTS