Le 19 mars, un modèle open source de synthèse vocale (TTS) nommé Orpheus TTS a été officiellement dévoilé. Ce modèle a rapidement attiré l'attention grâce à son expression émotionnelle proche de celle d'un humain, à la fluidité naturelle de sa voix et à sa latence extrêmement faible pour la sortie en flux temps réel. Orpheus TTS excelle dans les scénarios de conversation en temps réel et promet de révolutionner l'interaction vocale intelligente.
Orpheus TTS met l'accent sur une faible latence et une expression émotionnelle riche. Ses caractéristiques principales incluent : - **Latence ultra-faible :** une latence d'environ 200 ms par défaut, réductible à 25-50 ms grâce à l'optimisation du flux d'entrée et du cache KV du modèle, répondant ainsi aux besoins des conversations en temps réel. - **Expression émotionnelle :** une sortie vocale naturelle et fluide, capable de reproduire les émotions humaines et offrant une grande variété d'intonations pour une meilleure expérience interactive. - **Flux de sortie en temps réel :** prise en charge de la génération audio en streaming, assurant la synchronisation entre la génération vocale et l'entrée, idéal pour les assistants virtuels, les systèmes de service client, etc.
Grâce à sa faible latence et à son haut degré de naturalité, Orpheus TTS est considéré comme ayant un potentiel considérable dans le domaine des conversations en temps réel. Que ce soit pour les assistants vocaux intelligents, l'éducation en ligne, les présentateurs virtuels ou le doublage de personnages de jeux vidéo, ce modèle offre une expérience d'interaction vocale plus humaine. De plus, son caractère open source offre aux développeurs de nombreuses possibilités de personnalisation.
Avec sa combinaison d'expression émotionnelle, de résultats naturels et d'une latence ultra-faible, Orpheus TTS marque une avancée majeure dans la technologie TTS. Il améliore non seulement la qualité de la synthèse vocale, mais ouvre également de nouvelles perspectives pour les scénarios d'interaction dynamique grâce à son flux de sortie en temps réel. À l'avenir, ce modèle pourrait devenir une référence dans le domaine des TTS open source.