हाल ही में, TEN एजेंट टीम ने अपने एंटरप्राइज लेवल रियल-टाइम वॉइस एक्टिविटी डिटेक्शन (TEN VAD) के ओपन सोर्स लॉन्च की घोषणा की, जो इंडस्ट्री में गहरा रुचि पैदा करने वाली एक महत्वपूर्ण पहल है। TEN VAD, फ़्रेम-लेवल वॉइस डिटेक्शन की उच्च सटीकता और WebRTC VAD और Silero VAD की तुलना में बेहतर प्रदर्शन की क्षमता के कारण, रियल-टाइम वॉइस असिस्टेंट बनाने के लिए एक शक्तिशाली इंजन बन गया है।

TEN VAD: फ़्रेम-लेवल वॉइस डिटेक्शन पेशेवर डिटेक्टर

TEN VAD एक छोटे आकार वाला और कम लेटेंसी वाला वॉइस एक्टिविटी डिटेक्शन (VAD) मॉडल है जो मशीन लर्निंग पर आधारित है और व्यावसायिक अनुप्रयोगों के लिए विशेष रूप से डिज़ाइन किया गया है। यह ऑडियो फ़्रेम में मानव बोलने की पहचान करने और वातावरणीय शोर, चुप्पी और अन्य गैर-बोले वाले सामग्री को फ़िल्टर करने में सक्षम है। WebRTC VAD और Silero VAD जैसे सामान्य समाधानों की तुलना में, TEN VAD कई स्थितियों में जांच में अधिक सटीकता और कम त्रुटि दर प्रदर्शित करता है, विशेष रूप से जटिल शोर वाले वातावरण में। फ़्रेम-लेवल डिटेक्शन की क्षमता बोलने और बोले नहीं के बीच संक्रमण की तेज़ पहचान करने में मदद करती है, जो रियल-टाइम डायलॉग सिस्टम के लिए एक मजबूत आधार प्रदान करती है।

image.png

कम लेटेंसी और उच्च संगतता: बहु-प्लेटफॉर्म डेप्लॉयमेंट टूल

TEN VAD अपने प्रदर्शन के साथ-साथ कम गणना की जटिलता और कम मेमोरी उपयोग के कारण भी अलग है। Silero VAD की तुलना में TEN VAD के रियल-टाइम फैक्टर (RTF) में 32% की कमी हुई है, जिसके कारण विभिन्न हार्डवेयर प्लेटफॉर्म पर अधिक कम लेटेंसी होती है। साथ ही, TEN VAD ONNX मॉडल फॉर्मेट समर्थित है, Linux, Windows, macOS, Android और iOS जैसे पांच प्रमुख ऑपरेटिंग सिस्टम के साथ संगत है, और Python और WebAssembly (WASM) समर्थन भी प्रदान करता है, जिससे डेवलपर्स को किसी भी ONNX समर्थित प्लेटफॉर्म या वेब एप्लिकेशन पर आसानी से डेप्लॉय करने की अनुमति मिलती है। इस बहु-प्लेटफॉर्म लचीलापन ने विकास की बाधाओं को काफी कम कर दिया है और वॉइस आर्टिफिशियल इंटेलिजेंस के व्यापकीकरण के रास्ते को सुगम बना दिया है।

TEN Turn Detection के साथ सहयोग: प्राकृतिक बातचीत का अनुभव बनाएं

TEN VAD के साथ TEN Turn Detection के एकीकरण ने मानव जैसे वॉइस असिस्टेंट बनाने के लिए नए संभावनाएं प्रस्तुत की हैं। TEN Turn Detection एक बोलचाल के पूर्ण डुअल डेक्स के लिए डिज़ाइन किया गया बुद्धिमान टूर डिटेक्शन मॉडल है। यह प्राकृतिक बातचीत में रुकावट और टोन के संकेतों को पकड़ने में सक्षम है, जो संदर्भ के साथ बोलने के बीच बुद्धिमान अंतर करने और उत्तर देने की अनुमति देता है। यह संयोजन वॉइस असिस्टेंट को मानव अंतरक्रिया के स्तर पर चलने और प्रतिक्रिया देने में लगभग बराबर बनाता है, जो उपयोगकर्ता अनुभव को महत्वपूर्ण रूप से सुधारता है। ग्राहक सेवा, वर्चुअल असिस्टेंट या अंतरक्रिया उपकरणों के लिए, TEN VAD और TEN Turn Detection के संयुक्त उपयोग के संभावित असीमित अवसर प्रदान करता है।

ओपन सोर्स टूल: वॉइस इंटेलिजेंस में नवाचार को तेज करें

TEN VAD के ओपन सोर्स प्रकाशन ने वॉइस इंटेलिजेंस के क्षेत्र में एक नई अवधि की शुरुआत की है। इसके लॉन्च के बाद, TEN VAD के GitHub रिपॉजिटरी के लिए 600 से अधिक स्टार मिल गए हैं, जो डेवलपर समुदाय के गहरे रुचि के प्रमाण हैं। TEN VAD केवल पूर्व-ट्रेन किए गए मॉडल प्रदान नहीं करता है, बल्कि संबंधित पूर्व-प्रक्रिया कोड भी प्रदान करता है, जिससे डेवलपर्स अपनी आवश्यकताओं के अनुसार इनकी अनुकूलन और अनुकूलन कर सकते हैं। इसके अलावा, TEN Agent टीम ने इसे TEN Framework में शामिल कर दिया है, जिससे डेवलपर्स एक सरल कॉन्फ़िगरेशन के माध्यम से शक्तिशाली वॉइस इंटेलिजेंस एप्लिकेशन बना सकते हैं। AIbase यह मानता है कि TEN VAD के ओपन सोर्स होने से वॉइस इंटरैक्शन में तकनीकी नवाचार को बहुत तेजी से बढ़ावा मिलेगा, जो बुद्धिमान उपकरण, आईओटी और रियल-टाइम संचार के क्षेत्रों में नई ऊर्जा प्रदान करेगा।

उद्योग के दृष्टिकोण: वॉइस इंटरैक्शन के भविष्य को फिर से बनाएं

TEN VAD के लॉन्च ने वॉइस डिटेक्शन की सटीकता और कार्यक्षमता को बेहतर बनाया है, और वॉइस रिकग्निशन (STT) में अनावश्यक डेटा की मात्रा को कम करके गणना लागत में महत्वपूर्ण कमी की है। यह विशेष रूप से लागत-संवेदनशील अनुप्रयोगों, जैसे बुद्धिमान घरेलू वॉइस सिस्टम या वाहनों में एम्बेडेड वॉइस सिस्टम के लिए महत्वपूर्ण है। वॉइस इंटेलिजेंस के सेवा ग्राहक, शिक्षा और स्वास्थ्य के क्षेत्रों में बढ़ते उपयोग के साथ, TEN VAD के ओपन सोर्स और कार्यक्षम विशेषताएं उद्योग के विकास को एक अधिक प्राकृतिक और बुद्धिमान अंतरक्रिया अनुभव की ओर ले जाएगी।

AIbase मानता है कि TEN VAD और इसकी सहायक तकनीकें डेवलपर्स के लिए असीमित संभावनाएं प्रदान करेंगी, जो वॉइस इंटेलिजेंस को प्रयोगशाला से प्रत्येक घर तक ले जाएगा। भविष्य में, समुदाय के योगदान के लगातार विस्तार के साथ, TEN VAD वॉइस इंटरैक्शन के क्षेत्र में एक मानक उपकरण बन जाएगा, इस प्रकार मानव-मशीन अंतरक्रिया की सीमाओं को फिर से परिभाषित करते हुए।

परियोजना का पता: https://github.com/ten-framework/ten-vad