MOSS-TTSD (Text to Spoken Dialogue), développé par le laboratoire de parole et de langage de l'Université Tsinghua (Tencent AI Lab), en collaboration avec l'Institut Shanghai Chuangzhi, l'Université Fudan et Musi Smart, a été récemment rendu open source. Cela marque une importante avancée dans les technologies de synthèse vocale pour les scénarios de dialogue.

Ce modèle de génération de dialogue vocal basé sur le modèle Qwen3-1.7B-base est entraîné à partir d'environ 1 million d'heures de données vocales d'un seul locuteur et de 400 000 heures de données vocales de dialogues. En utilisant une méthode de modélisation des séquences vocales discrètes, il permet la génération de dialogues vocaux exprimés dans les deux langues, le chinois et l'anglais, et convient particulièrement à la création de contenus longs tels que les podcasts, les romans sonores ou les doublages de films.

L'innovation principale de MOSS-TTSD réside dans son XY-Tokenizer, qui utilise une approche d'apprentissage multi-tâches en deux étapes. Grâce à huit codex RVQ, le signal vocal est compressé à un débit binaire de 1 kbps tout en préservant l'information sémantique et acoustique, garantissant ainsi la nature et la fluidité du speech généré. Le modèle supporte la génération de sons de plus de 960 secondes, évitant ainsi les transitions incohérentes causées par l'assemblage de fragments dans les modèles TTS traditionnels. De plus, MOSS-TTSD dispose d'une capacité de clonage de voix sans exemple, permettant de réaliser un clonage de voix à deux personnes en téléchargeant un fragment complet de dialogue ou un enregistrement d'une seule personne. Il prend également en charge le contrôle des événements vocaux, comme les rires, ajoutant ainsi plus de richesse à l'expression vocale.

Par rapport aux autres modèles vocaux du marché, MOSS-TTSD dépasse nettement le modèle open source MoonCast en termes d'indicateurs objectifs en chinois, offrant une intonation et une nature remarquables. Cependant, il est légèrement inférieur au modèle vocal Doubao de ByteDance en termes de ton et de rythme. Toutefois, grâce à ses avantages en matière d'ouverture et d'utilisation commerciale gratuite, MOSS-TTSD montre toujours un grand potentiel d'application. Les poids du modèle, le code de raisonnement et les interfaces API sont désormais pleinement open source via GitHub (https://github.com/OpenMOSS/MOSS-TTSD) et HuggingFace (https://huggingface.co/fnlp/MOSS-TTSD-v0.5). La documentation officielle et une démo en ligne sont également disponibles, offrant aux développeurs un accès facile.

Lancement de MOSS-TTSD apporte une nouvelle énergie au domaine de l'interaction vocale IA, notamment dans les scénarios tels que les entretiens longs, la production de podcasts et les doublages de films, où sa stabilité et sa performance pousseront le processus d'intelligence dans la création de contenus. À l'avenir, l'équipe prévoit d'améliorer davantage le modèle, en renforçant l'exactitude de la transition entre plusieurs locuteurs et l'expression émotionnelle.

Adresse : https://github.com/OpenMOSS/MOSS-TTSD