7 जुलाई को, फ्रांस के AI अनुसंधान संस्थान Kyutai Labs ने अपनी नवीनतम पाठ-से-आवाज (TTS) तकनीक - Kyutai TTS के स्रोत कोड के साथ लॉन्च किया, जो डेवलपर्स और AI शौकीनों के लिए उच्च दक्षता और वास्तविक समय के आवाज जनरेशन हल प्रदान करता है। Kyutai TTS कम देरी और उच्च गुणवत्ता ध्वनि के साथ उभरा हुआ है, जो पाठ के बफर के बिना भी ध्वनि उत्पादन शुरू कर सकता है, जो वास्तविक समय के अंतःक्रिया परिदृश्य के लिए विशेष रूप से उपयुक्त है।

Kyutai TTS के प्रदर्शन में उत्कृष्टता है। एक एनवीडिया L40S GPU का उपयोग करके, यह मॉडल 32 अनुरोधों को एक साथ प्रसंस्करण कर सकता है, जबकि देरी केवल 350 मिलीसेकंड है। इसके अलावा, प्रणाली उच्च गुणवत्ता ध्वनि उत्पन्न करती है और शब्द के निर्यात के अक्षम समय टैग भी प्रदान करती है, जो वास्तविक समय के शब्दांकन या अंतःक्रिया एप्लिकेशन के लिए उपयोगी है, जैसे Unmute प्लेटफॉर्म के अंतर कार्यक्रम।

भाषा समर्थन और गुणवत्ता मूल्यांकन के मामले में, Kyutai TTS अब अंग्रेजी और फ्रेंच भाषा का समर्थन करता है, जिनके शब्द त्रुटि दर (WER) क्रमशः 2.82 और 3.29 हैं, जो उच्च सटीकता दर्शाते हैं। बोलने वाले के समानता के स्तर 77.1% (अंग्रेजी) और 78.7% (फ्रेंच) है, जो ध्वनि को प्राकृतिक और मूल नमूने के अत्यधिक निकट बनाता है। मॉडल लंबे लेखों के साथ भी काम कर सकता है, जो पारंपरिक TTS के 30 सेकंड के सीमा को तोड़ता है, जो समाचार, पुस्तकों आदि के लंबे सामग्री उत्पादन के लिए उपयुक्त है।

Kyutai TTS देरी बहुत ढांचा (DSM) संरचना का उपयोग करता है, जो Rust सर्वर के साथ उच्च दक्षता बैच प्रसंस्करण करता है, जो GitHub और Hugging Face पर स्रोत कोड और मॉडल वजन खुले रखता है, जो वैश्विक डेवलपर्स के लिए आवाज प्रौद्योगिकी नवाचार को बढ़ावा देने में मदद करता है।