Im Kontext der schnellen Entwicklung der Sprachsynthese-Technologie haben Face Intelligent und das Labor für Mensch-Maschine-Sprachinteraktion an der Shenzhen International Graduate School der Tsinghua University (THUHCSI) kürzlich ein neues Sprachgenerationsmodell namens VoxCPM vorgestellt. Mit einer Parametergröße von 0,5B zielt dieses Modell darauf ab, den Nutzern eine hochwertige und natürliche Sprachsynthese-Erfahrung zu bieten.
Die Einführung von VoxCPM markiert einen weiteren Meilenstein im Bereich der hochrealistischen Sprachgenerierung. In Bezug auf Schlüsselindikatoren wie Natürlichkeit, Stimmenähnlichkeit und Rhythmik erreicht dieses Modell führende水平 in der Branche. Dank der Technologie des zero-shot-Stimmenklons kann VoxCPM mit sehr wenig Daten eine eindeutige Stimme des Nutzers generieren und somit eine personalisierte Sprachsynthese ermöglichen. Diese technologische Fortschritt eröffnet neue Möglichkeiten für Anwendungen in der Sprachgenerierung, insbesondere in Bereichen wie personalisierten Sprachassistenten oder Synchronsprecher für Charaktere.
Es wird berichtet, dass VoxCPM auf Plattformen wie GitHub und Hugging Face öffentlich zugänglich ist und Entwicklern eine Online-Testplattform bietet, um die leistungsstarken Funktionen des Modells zu erkunden und zu nutzen. Das Modell hat bei der renommierten Bewertungsserie Seed-TTS-EVAL hervorragende Leistungen gezeigt, insbesondere in Bezug auf die Wörterfehlerquote und die Stimmenähnlichkeit, wobei es extrem niedrige Fehlerquoten erzielte und somit seine exzellente Inferenzeffizienz demonstrierte. Auf einer NVIDIA RTX4090-Grafikkarte beträgt der Echtzeitfaktor (RTF) von VoxCPM etwa 0,17 und erfüllt somit die Anforderungen an eine hochwertige Echtzeit-Interaktion.
VoxCPM zeigt nicht nur technische Fortschritte, sondern auch hervorragende Leistungen in Bezug auf Klangqualität und emotionale Ausdrucksweise. Das Modell kann intelligent passende Stimmen, Tonfall und Rhythmus basierend auf dem Textinhalt auswählen und einen Klang erzeugen, der dem eines echten Menschen entspricht. Ob Wetterberichte, Heldensprech, oder Dialekt-Moderatoren – VoxCPM kann diese präzise nachbilden und ein immersives Hörerlebnis bieten.
Außerdem basiert die technische Architektur von VoxCPM auf dem neuesten Diffusions-Autoregressions-Sprachgenerationsmodell und kombiniert hierarchische Sprachmodellierung mit kontinuierlichen Darstellungen durch lokale Diffusionsgenerierung, was die Darstellungsfähigkeit und Natürlichkeit der generierten Sprache deutlich verbessert. Die Kernarchitektur des Modells besteht aus mehreren Modulen, die zusammenarbeiten und einen effizienten „Semantik - Akustik“-Generationsprozess ermöglichen.
🔗 Github:
https://github.com/OpenBMB/VoxCPM/
🔗 Hugging Face:
https://huggingface.co/openbmb/VoxCPM-0.5B
🔗 ModelScope:
https://modelscope.cn/models/OpenBMB/VoxCPM-0.5B
🔗 PlayGround-Erfahrung:
https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo
🔗 Adresse der Audio-Beispiel-Seite:
https://openbmb.github.io/VoxCPM-demopage