Avec le développement rapide des technologies de synthèse vocale, Face Intelligent et le laboratoire de l'interaction homme-machine en parole (THUHCSI) de l'Institut international des études supérieures de Shenzhen de l'Université Tsinghua ont récemment présenté un nouveau modèle de génération vocale — VoxCPM. Ce modèle, avec une taille de paramètres de 0,5 milliard, vise à offrir aux utilisateurs une expérience de synthèse vocale de haute qualité et naturelle.
Le lancement de VoxCPM marque un autre jalon dans le domaine de la génération vocale réaliste. Sur des indicateurs clés tels que la naturalité, la similarité des tonalités et l'expressivité prosodique, ce modèle atteint un niveau avancé de l'industrie. Grâce à la technologie de copie de voix sans exemple, VoxCPM peut générer une voix unique de l'utilisateur à partir d'un très petit volume de données, permettant ainsi une synthèse vocale personnalisée. Cette avancée technologique ouvre de nouvelles possibilités pour les applications de génération vocale, notamment dans les assistants vocaux personnalisés et la doublure de personnages de jeux.
Il a été rapporté que VoxCPM est open source sur des plateformes comme GitHub et Hugging Face, et qu'une plateforme en ligne d'expérience est disponible pour les développeurs, facilitant ainsi l'exploration et l'utilisation de ses fonctionnalités puissantes. Le modèle s'est distingué dans le classement officiel Seed-TTS-EVAL pour la synthèse vocale, en particulier en obtenant un taux d'erreur extrêmement faible concernant le taux d'erreur par mot et la similarité de tonalité, démontrant ainsi son excellente efficacité de raisonnement. Sur une carte graphique NVIDIA RTX4090, le facteur de temps réel (RTF) de VoxCPM est d'environ 0,17, répondant ainsi aux exigences de l'interaction en temps réel de haute qualité.
VoxCPM dépasse non seulement les performances techniques, mais aussi la qualité du son et l'expression émotionnelle. Le modèle peut choisir intelligemment la voix, le ton et l'intonation appropriés selon le contenu du texte, reproduisant ainsi une expérience auditive presque identique à celle d'une personne réelle. Que ce soit pour les bulletins météorologiques, les discours héroïques ou les animateurs de régionalismes, VoxCPM peut restituer précisément ces situations, offrant une expérience auditive immersive.
En outre, l'architecture technique de VoxCPM repose sur le dernier modèle de génération vocale diffusion-régressive, intégrant des représentations continues de modélisation linguistique hiérarchisée et de génération diffusion locale, ce qui améliore significativement l'expressivité et la nature des sons générés. La structure centrale du modèle comprend plusieurs modules qui travaillent ensemble pour réaliser un processus efficace de génération « sémantique - acoustique ».
🔗 Github:
https://github.com/OpenBMB/VoxCPM/
🔗 Hugging Face:
https://huggingface.co/openbmb/VoxCPM-0.5B
🔗 ModelScope:
https://modelscope.cn/models/OpenBMB/VoxCPM-0.5B
🔗 Plateforme d'expérimentation:
https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo
🔗 Page d'exemples audio:
https://openbmb.github.io/VoxCPM-demopage