ऑपन सोर्स वाचन संश्लेषण में एक नया प्रगति की प्राप्ति हुई है! हाल ही में प्रकाशित ओपन सोर्स TTS मॉडल मुयान-TTS कॉस्टमेकर, ऑडियोबुक्स और लंबे वीडियो स्केनरियों के लिए डिज़ाइन किया गया है, सैंपल बिना वाचन क्षमता, तेज उत्पादन और सुसंगत और आरामदायक पढ़ाई के साथ। यह बहुत से मॉडलों में से एक है जो बड़े पैमाने पर लंबे स्क्रिप्ट्स के लिए सबसे अच्छा फिट है।
अधिकांशतः 1 लाख से भी अधिक घंटों के पॉडकास्ट डेटा से प्रशिक्षित, मुयान-TTS एक सेकंड की ऊँची गुणवत्ता वाली ऑडियो को बस 0.33 सेकंड में उत्पन्न कर सकता है। यह कई मिनटों तक के लेखों को अग्राह्य किए बिना पढ़ सकता है, स्वाभाविक और सुसंगत स्वर के साथ। इसके अलावा, यह स्पीकर कस्टमाइज़ेशन का समर्थन करता है, जिससे किसी भी स्वर के लिए वोइस क्लोनिंग की सुविधा मिलती है और एक क्लिक में अपने टोन और रिथ्म के साथ परसोनलाइज़ ऑडियो कंटेंट उत्पन्न कर सकता है।
इस मॉडल को हुगिंग फेस पर उपलब्ध किया गया है, जिससे ऑफलाइन डिप्लॉयमेंट समर्थन किया जा सकता है, जिससे डेवलपर्स लॉकल मशीन पर तेजी से अनुमान लगा सकते हैं, और इससे विभिन्न अनुप्रयोगों के लिए सुविधा मिलती है: पॉडकास्ट उत्पादन, ऑडियोबुक निर्माण, इंग्लिश वीडियो साउंडट्रैक, AI चरित्र पठन, और इंटेलिजेंट घोषणाएं आदि, जिससे सामग्री उत्पादन की दक्षता बढ़ जाती है।
इंटरेस्टेड डेवलपर्स अपने आईएए कॉन्टेंट क्रिएटिव जरूरी के लिए हुगिंग फेस पर मॉडल वेट्स और कोड उदाहरण प्राप्त कर सकते हैं और अपनी रचनात्मक जरूरतों की पहुंच करें।
ओपन सोर्स गिट हब पता: https://github.com/MYZY-AI/Muyan-TTS
HF मॉडल पता: https://huggingface.co/MYZY-AI/Muyan-TTS