हाल ही में, क्यूवां टेक्नोलॉजी ने MaskGCT नामक एक नया वॉइस सिंथेसिस (TTS) मॉडल जारी किया है, जिसने वॉइस गुणवत्ता, समानता और नियंत्रण के मामले में महत्वपूर्ण प्रगति की है, जो पारंपरिक वॉइस सिंथेसिस (TTS) के तरीके को पूरी तरह से बदल देता है, और AI को मानव लेबलिंग पर निर्भरता से पूरी तरह मुक्त करता है, वास्तव में "स्व-शिक्षण" की अवधारणा को साकार करता है।

image.png

पारंपरिक TTS सिस्टम, एक लाड़ प्यार किए गए बच्चे की तरह होता है, जिसे बोलना सिखाने के लिए हर शब्द को मानव द्वारा सिखाना पड़ता है, पहले टेक्स्ट और वॉइस को संरेखित करना, फिर प्रत्येक स्वर के समय की भविष्यवाणी करना, और अंत में ही धीरे-धीरे वॉइस का निर्माण करना। यह तरीका न केवल कम प्रभावी है, बल्कि उत्पन्न वॉइस में प्राकृतिक और सुचारु लय की कमी होती है।

क्यूवां टेक्नोलॉजी द्वारा प्रस्तुत MaskGCT इस पुराने तरीके को पूरी तरह से त्याग देता है। यह मास्क जनरेटिव एनकोडर-डिकोडर ट्रांसफार्मर आर्किटेक्चर का उपयोग करता है, सरल शब्दों में कहें तो, यह एक BERT जैसे मॉडल का उपयोग करता है, पहले वॉइस को अर्थ विशेषताओं में परिवर्तित करता है, फिर इन अर्थ विशेषताओं के आधार पर, एक अन्य मॉडल का उपयोग करके ध्वनिक विशेषताओं की भविष्यवाणी करता है, और अंत में वॉइस का निर्माण करता है।

इस प्रणाली की सबसे बड़ी विशेषता यह है कि इसे मानव लेबलिंग की आवश्यकता नहीं है। यह सीधे 100,000 घंटे के बिना लेबल वाले वॉइस डेटा का उपयोग करके प्रशिक्षण करता है, जिससे मॉडल खुद बड़ी मात्रा में डेटा से टेक्स्ट और वॉइस के बीच संबंध सीखता है।

यह एक बच्चे को भाषा के वातावरण में फेंकने के समान है, उसे खुद से सीखने के लिए छोड़ दिया जाता है, और अंततः वह स्वाभाविक रूप से भाषा को समझ लेता है।

MaskGCT की एक और शानदार विशेषता यह है कि यह मानव की तरह वॉइस के समय को लचीले ढंग से नियंत्रित कर सकता है, चाहें तो तेज, चाहें तो धीमा। यह उन स्थितियों के लिए एक वरदान है जहां वॉइस ओवर या वॉइस संपादन की आवश्यकता होती है।

परीक्षण परिणामों ने भी MaskGCT की क्षमता को साबित किया है। वॉइस गुणवत्ता, समानता, लय और स्पष्टता के मामले में, यह मौजूदा विभिन्न TTS सिस्टम को मात देता है, और यहां तक कि यह मानव के स्तर के साथ तुलना करने योग्य है।

और भी अधिक प्रभावशाली यह है कि MaskGCT न केवल उच्च गुणवत्ता वाली वॉइस उत्पन्न कर सकता है, बल्कि विभिन्न वक्ताओं की शैली की नकल भी कर सकता है, यहां तक कि यह भाषाओं के बीच वॉइस अनुवाद भी कर सकता है, यह वास्तव में एक बहुपरकारी योद्धा है।

बेशक, MaskGCT में अभी भी कुछ सीमाएँ हैं, जैसे कि बड़े पैमाने पर चेहरे की मुद्रा के वॉइस सिंथेसिस को संभालते समय कुछ दोष उत्पन्न हो सकते हैं। लेकिन दोषों के बावजूद, MaskGCT का आगमन निश्चित रूप से TTS क्षेत्र में नई संभावनाएँ खोलता है, और हमारे भविष्य के मानव-मशीन इंटरैक्शन अनुभव के लिए अनंत कल्पना का स्थान लाता है।

ऑनलाइन अनुभव: https://huggingface.co/spaces/amphion/maskgct

प्रोजेक्ट पता: https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct

वेबसाइट पता: https://voice.funnycp.com/