फ्रांस के AI लैब क्यूटाइ ने हाल ही में एक क्रांतिकारी वाणिज्यिक AI प्रणाली 'अनम्यूट' जारी की, जो पाठ आधारित महामॉडल (LLM) को उच्च-क्षमता के ध्वनि संवाद क्षमता प्रदान करती है। यह उच्च स्तर का मॉड्यूलर डिज़ाइन वाला ध्वनि मॉडल अपनी बुद्धिमान बातचीत, अत्यधिक कम देरी और प्रतिस्पर्धी परिपरिकलन के कारण उद्योग के बीच बहुत चर्चा पैदा कर रहा है। AIbase ने सबसे हालिया जानकारी को समायोजित करके, आपको 'अनम्यूट' की तकनीकी अगुआई और अनुप्रयोगी संभावनाओं के बारे में गहरा पड़ोस दिखाया है।

image.png

मॉड्यूलर डिज़ाइन: किसी भी पाठ मॉडल को ‘स्वर’ करें

'अनम्यूट' का मुख्य लाभ यह है कि इसका उच्च स्तर का मॉड्यूलर आर्किटेक्चर है। डेवलपर फिर भी पुनः प्रशिक्षण नहीं करने की जरूरत है, बस वर्तमान पाठ महामॉडल के ऊपर 'अनम्यूट' को 'लेप फिट' कर देने से उसे ध्वनि प्रवेश (ध्वनि से पाठ बदलना, STT) और ध्वनि आउटपुट (पाठ से ध्वनि बदलना, TTS) की क्षमता जोड़ने की सुविधा मिलती है। यह लचीला डिज़ाइन पाठ मॉडल के तर्क शक्ति, ज्ञान बचाव और विसंगतियों को सुधारने की क्षमता को बरकरार रखता है, जबकि एक बेहतरीन ध्वनि संवाद प्रयोग का अनुभव जोड़ता है।

बुद्धिमान संवाद: मनुष्य जैसा बातचीत

'अनम्यूट' ने बातचीत अनुभव में एक महत्वपूर्ण अग्रगामीता प्रदान की:

इंटेलिजेंट जंजाल और बातचीत करना: 'अनम्यूट' यह जानकारी प्राप्त कर सकता है कि उपयोगकर्ता बोलना पूरा कर चुके हैं और उपयोगकर्ता के समय उत्तर देता है, मानव बातचीत के पैटर्न को समझता है।

अपने जवाब को किसी भी समय बंद करने की सुविधा: उपयोगकर्ता किसी भी समय AI के जवाब को बंद कर सकते हैं, जो संवाद की लचीलता और प्राकृतिकता को बढ़ाता है।

पाठ धारावाहिक संयोजन: 'अनम्यूट' पाठ उत्पन्न होने वाले बिना पहले भी ध्वनि संयोजन शुरू कर सकता है, जो प्रतिक्रिया देरी को बेहतर बनाता है और एक लाइव बातचीत के लिए अधिक लगावपूर्ण अनुभव प्रदान करता है।

व्यक्तिगत कसूर: 10 सेकंड में विशेष ध्वनि बनाएं

'अनम्यूट' का एक और महत्वपूर्ण नवाचार यह है कि इसकी मजबूत ध्वनि विशिष्टता क्षमता है। केवल 10 सेकंड का ध्वनि नमूना लेने पर एक बहुत व्यक्तिगत ध्वनि AI बनाया जा सकता है, जो विभिन्न परिदृश्यों की जरूरतों को पूरा करता है। यह भूतपूर्व भावों को प्रतिबिंबित कर सकता है या ध्वनि के ताल, गति को बदल सकता है, 'अनम्यूट' की ऐसी सुविधाएं बड़ी विविधता के साथ उपयोगकर्ताओं को अनुभव प्रदान करती हैं।

ओपन सोर्स प्लान: विश्व के डेवलपर्स को पावर

क्यूटाइ ने घोषणा की है कि 'अनम्यूट' के संबंधित मॉडल और कोड अगले कई सप्ताहों के भीतर पूरी तरह से ओपन सोर्स हो जाएंगे। यह कदम ध्वनि AI प्रौद्योगिकी के व्यापकीकरण और नवाचार को बढ़ावा देने में मदद करेगा और विश्व व्यापारियों का ध्यान आकर्षित करेगा। पहले क्यूटाइ द्वारा जारी किए गए ध्वनि निवेशित मॉडल 'मोशी' ने इस प्रकार की नवाचार के कारण चर्चा पैदा की थी, और 'अनम्यूट' का मॉड्यूलर डिज़ाइन क्यूटाइ के ध्वनि AI क्षेत्र में एक और निशानी है।

ध्वनि AI का नया रास्ता

'अनम्यूट' का रिलीज़ ध्वनि AI प्रौद्योगिकी को अधिक लचीला और उपयोगी बनाने का नई शुरुआत है। पारंपरिक ध्वनि निवेशित मॉडलों की तुलना में, 'अनम्यूट' ने मौजूदा पाठ मॉडलों के फायदों का अधिक लाभ उठाया है और ध्वनि संवाद में देरी और प्राकृतिकता की समस्याओं का समाधान किया है। AIbase यह समझता है कि 'अनम्यूट' के लॉन्च के साथ डेवलपर्स को ध्वनि AI के लिए अधिक सुविधाजनक समाधान मिले हैं, और शिक्षा, कस्टमर सर्विस, मनोरंजन क्षेत्रों में नए संवाद परिदृश्यों की संभावना बढ़ गई है।

संक्षिप्त

क्यूटाइ का 'अनम्यूट' इसके मॉड्यूलर डिज़ाइन, बुद्धिमान संवाद और व्यक्तिगत कसूर के लाभ से ध्वनि AI क्षेत्र में नई जानकारी का संकेत दे रहा है। क्रमशः कम देरी के बातचीत अनुभव और ओपन सोर्स टेक्नोलॉजी समर्थन के साथ, 'अनम्यूट' ने उद्योग को बदलने की क्षमता प्रदर्शित की है।

अनुभव करने के लिए जाएं: https://unmute.sh/