ऑपन सोर्स वाचन संश्लेषण में एक नया प्रगति की प्राप्ति हुई है! हाल ही में प्रकाशित ओपन सोर्स TTS मॉडल मुयान-TTS कॉस्टमेकर, ऑडियोबुक्स और लंबे वीडियो स्केनरियों के लिए डिज़ाइन किया गया है, सैंपल बिना वाचन क्षमता, तेज उत्पादन और सुसंगत और आरामदायक पढ़ाई के साथ। यह बहुत से मॉडलों में से एक है जो बड़े पैमाने पर लंबे स्क्रिप्ट्स के लिए सबसे अच्छा फिट है।

QQ20250513-085410.png

अधिकांशतः 1 लाख से भी अधिक घंटों के पॉडकास्ट डेटा से प्रशिक्षित, मुयान-TTS एक सेकंड की ऊँची गुणवत्ता वाली ऑडियो को बस 0.33 सेकंड में उत्पन्न कर सकता है। यह कई मिनटों तक के लेखों को अग्राह्य किए बिना पढ़ सकता है, स्वाभाविक और सुसंगत स्वर के साथ। इसके अलावा, यह स्पीकर कस्टमाइज़ेशन का समर्थन करता है, जिससे किसी भी स्वर के लिए वोइस क्लोनिंग की सुविधा मिलती है और एक क्लिक में अपने टोन और रिथ्म के साथ परसोनलाइज़ ऑडियो कंटेंट उत्पन्न कर सकता है।

इस मॉडल को हुगिंग फेस पर उपलब्ध किया गया है, जिससे ऑफलाइन डिप्लॉयमेंट समर्थन किया जा सकता है, जिससे डेवलपर्स लॉकल मशीन पर तेजी से अनुमान लगा सकते हैं, और इससे विभिन्न अनुप्रयोगों के लिए सुविधा मिलती है: पॉडकास्ट उत्पादन, ऑडियोबुक निर्माण, इंग्लिश वीडियो साउंडट्रैक, AI चरित्र पठन, और इंटेलिजेंट घोषणाएं आदि, जिससे सामग्री उत्पादन की दक्षता बढ़ जाती है।

इंटरेस्टेड डेवलपर्स अपने आईएए कॉन्टेंट क्रिएटिव जरूरी के लिए हुगिंग फेस पर मॉडल वेट्स और कोड उदाहरण प्राप्त कर सकते हैं और अपनी रचनात्मक जरूरतों की पहुंच करें।

ओपन सोर्स गिट हब पता: https://github.com/MYZY-AI/Muyan-TTS

HF मॉडल पता: https://huggingface.co/MYZY-AI/Muyan-TTS