हाल ही में, KittenML टीम ने Hugging Face प्लेटफॉर्म पर अपना नया ओपन-सोर्स टेक्स्ट-टू-स्पीच मॉडल - Kitten TTS जारी किया। इस मॉडल का डिज़ाइन उच्च गुणवत्ता वाले ध्वनि संश्लेषण को प्राप्त करने के लिए किया गया है, जबकि यह हल्का और दक्ष है, जो विभिन्न उपकरणों पर डेप्लॉय करने के लिए उपयुक्त है। Kitten TTS के पैरामीटर 15 मिलियन हैं, जबकि अन्य समान मॉडलों की तुलना में इसका आकार 25MB से कम है, जो संसाधन सीमित वातावरण के लिए विशेष रूप से उपयुक्त है।
Kitten TTS GPU बिना चल सकता है, जिसका अर्थ है कि उपयोगकर्ता सामान्य CPU उपकरणों पर ध्वनि संश्लेषण कर सकते हैं, जो उपयोग के बाधाओं को बहुत कम कर देता है। इस मॉडल में उच्च गुणवत्ता वाले ध्वनि विकल्प भी उपलब्ध हैं, जो उत्पादित ध्वनि को अधिक प्राकृतिक और चलता बनाते हैं, जो विभिन्न अनुप्रयोग स्थितियों के लिए उपयुक्त है। इसके अलावा, Kitten TTS की अनुमान गति को अपग्रेड किया गया है, जो वास्तविक समय ध्वनि संश्लेषण को संभव बनाता है, जो उपयोगकर्ता की गति की आवश्यकता को पूरा करता है।
उपयोगकर्ताओं के लिए तेजी से शुरू करने के लिए, KittenML ने सरल स्थापना और उपयोग निर्देश भी प्रदान किए हैं। उपयोगकर्ता केवल pip कमांड के माध्यम से अनुरूप लाइब्रेरी स्थापित कर सकते हैं, और सरल कोड के माध्यम से मॉडल को बुलाकर उच्च गुणवत्ता वाली ध्वनि उत्पन्न कर सकते हैं। उदाहरण के लिए, उपयोगकर्ता केवल "यह उच्च गुणवत्ता वाला TTS मॉडल GPU बिना चल सकता है" लिख सकते हैं, जिसके बाद मॉडल अनुरूप ऑडियो फ़ाइल उत्पन्न करेगा, जो उपयोगकर्ता द्वारा संग्रहित और उपयोग करने के लिए सुविधाजनक होगा।
Kitten TTS वर्तमान में डेवलपर्स पूर्व दृश्य चरण में है, और आने वाले समय में पूरी तरह से प्रशिक्षित मॉडल भार, मोबाइल SDK और वेब संस्करण जारी किए जाएंगे, जो अनुप्रयोग के विस्तार को आगे बढ़ाएंगे। KittenML इस मॉडल के माध्यम से टेक्स्ट-टू-स्पीच तकनीक के विस्तार को बढ़ावा देना चाहता है, जो अधिक विकासकर्ताओं और उद्यमों को अपने परियोजनाओं में ध्वनि संश्लेषण कार्य को सरल बनाने में सक्षम बनाएगा।
Kitten TTS के जारी होने से AI ध्वनि संश्लेषण तकनीक के अधिक अनुप्रयोगों की ओर एक और कदम बढ़ता है, इस मॉडल के भविष्य में अधिक उपयोगकर्ताओं के लिए सुविधा और नवाचार के अनुभव प्रदान करने की उम्मीद है।
मुख्य बिंदु:
🐱 Kitten TTS एक ओपन-सोर्स हल्का टेक्स्ट-टू-स्पीच मॉडल है, जिसका आकार 25MB से कम है, जो विभिन्न उपकरणों के लिए उपयुक्त है।
⚡ मॉडल GPU बिना चल सकता है, जिसके कारण उपयोगकर्ता सामान्य CPU पर उच्च गुणवत्ता वाला ध्वनि संश्लेषण कर सकते हैं।
🚀 Kitten TTS के लिए सरल स्थापना और उपयोग निर्देश उपलब्ध हैं, जो उपयोगकर्ताओं को तेजी से शुरू करने और ऑडियो उत्पन्न करने में सक्षम बनाते हैं।