TEN Agent टीम हाल ही में घोषणा करती है कि इसके मुख्य मॉडल **TEN Voice Activity Detection (VAD)** और **TEN Turn Detection** अब खुले स्रोत में उपलब्ध हैं, जो वास्तविक समय में बहुमाध्यमिक बोलने वाले AI एजेंट बनाने के लिए एक मजबूत तकनीकी समर्थन प्रदान करते हैं।
यह कदम TEN फ्रेमवर्क के बोलने वाले अंतरक्रिया तकनीक के लिए लोकतंत्रीकरण और खुले स्रोत सहयोग के आगे बढ़ने के लिए महत्वपूर्ण प्रगति को चिह्नित करता है। नीचे AIbase द्वारा संकलित नवीनतम समाचार है, जो इन दो मुख्य मॉडल के कार्य, लाभ और उद्योग पर संभावित प्रभाव के गहराई से विश्लेषण करता है।
TEN VAD: कम देरी वाला उच्च प्रदर्शन वाला बोलने वाले गतिविधि डिटेक्शन
TEN VAD व्यापारिक अनुप्रयोगों के लिए डिज़ाइन किया गया एक वास्तविक समय बोलने वाले गतिविधि डिटेक्टर है, जो कम देरी, हल्का आकार और उच्च प्रदर्शन के लिए जाना जाता है। आधिकारिक जानकारी और सोशल मीडिया प्रतिक्रिया के अनुसार, TEN VAD बोलने वाले गतिविधि का फ्रेम-स्तर तक सटीक रूप से डिटेक्ट कर सकता है, जो उद्योग में आमतौर पर उपयोग किए जाने वाले WebRTC VAD और Silero VAD से बेहतर है। इसके मुख्य विशेषताएं निम्नलिखित हैं:
- **कम गणना जटिलता**: TEN VAD के लाइब्रेरी का आकार छोटा है और गणना जटिलता कम है, जो C भाषा के अनुरूप है और Linux x64, Windows, macOS, Android और iOS जैसे विभिन्न ऑपरेटिंग सिस्टम को कवर करता है, साथ ही Linux x64 के लिए Python बाइंडिंग और Web पर WASM समर्थन प्रदान करता है।[] (https://huggingface.co/TEN-framework/ten-vad)
- **उच्च सटीकता और कम देरी**: Silero VAD के मुकाबले, TEN VAD बोलने वाले से अनबोलने वाले में परिवर्तन के डिटेक्शन में कम देरी दर्ज करता है, जो वास्तविक समय अंतरक्रिया वाले मामलों के लिए उपयुक्त है। परीक्षण में इसके वास्तविक समय कारक (RTF) कई CPU प्लेटफॉर्म पर उत्कृष्ट प्रदर्शन दर्ज किया गया है।[](https://huggingface.co/TEN-framework/ten-vad)
- **सबसे नवीनतम खुला स्रोत प्रगति**: 2025 के जून में, TEN टीम ने ONNX मॉडल और पूर्व-प्रसंस्करण कोड के खुले स्रोत की घोषणा की, जो किसी भी ONNX के समर्थन वाले प्लेटफॉर्म और हार्डवेयर आर्किटेक्चर पर डिप्लॉय करने में सक्षम करता है, जो लचीलापन को और अधिक बढ़ाता है। इसके अलावा, WASM + JS के समर्थन ने इसके वेब एप्लिकेशन के संभावनाओं को विस्तारित किया।
सोशल मीडिया पर, विकासकर्ताओं ने TEN VAD के खुले स्रोत के लिए उच्च मूल्यांकन किया है, जिसका मानना है कि इसकी क्षमता पारंपरिक VAD मॉडल से बेहतर है और वास्तविक समय बोलने वाले सहायक विकास के लिए एक मजबूत उपकरण प्रदान करता है।
TEN Turn Detection: बुद्धिमान बातचीत चक्र प्रबंधन
**TEN Turn Detection** पूर्ण द्विदिश बोलने वाले संचार के लिए डिज़ाइन किया गया एक बुद्धिमान चक्र डिटेक्शन मॉडल है, जो मानव-मशीन बातचीत में सबसे चुनौतीपूर्ण समस्याओं में से एक हल करने के लिए डिज़ाइन किया गया है: उपयोगकर्ता के बोलने के अंत का सटीक रूप से निर्धारण और संदर्भ ज्ञान वाले अंतर्विरोध के साथ निपटान। इसकी मुख्य विशेषताएं निम्नलिखित हैं:
- **अर्थ विश्लेषण क्षमता**: Qwen2.5-7B के Transformer मॉडल पर आधारित, TEN Turn Detection बातचीत के अर्थ संदर्भ और भाषा पैटर्न के विश्लेषण के माध्यम से उपयोगकर्ता के बोलने के "पूर्ण", "प्रतीक्षा" और "अपूर्ण" स्थिति को सटीक रूप से अलग करता है। उदाहरण के लिए, यह "हैलो, मैं एक सवाल पूछना चाहता हूं..." को अपूर्ण बोलने के रूप में अलग कर सकता है, जिससे आवश्यकता के बिना AI द्वारा बाधा डाली जाने से बचा जा सकता है।[] (https://huggingface.co/TEN-framework/TEN_Turn_Detection)
- **बहुभाषा समर्थन**: अब अंग्रेजी और चीनी भाषा का समर्थन करता है, जो बहुभाषा बातचीत में चक्र संकेतों की सटीक रूप से निर्धारण करता है, जो वैश्विक अनुप्रयोगों के लिए उपयुक्त है।[] (https://huggingface.co/TEN-framework/TEN_Turn_Detection)
- **उत्कृष्ट प्रदर्शन**: सार्वजनिक परीक्षण डेटा सेट पर, TEN Turn Detection अन्य खुले स्रोत चक्र डिटेक्शन मॉडल के सभी मापदंडों में अतिक्रमण करता है, विशेष रूप से डायनामिक वास्तविक समय बातचीत में उत्कृष्ट प्रदर्शन दर्ज करता है।[] (https://huggingface.co/TEN-framework/TEN_Turn_Detection)
- **प्राकृतिक अंतरक्रिया अनुभव**: TEN VAD के साथ जुड़कर, TEN Turn Detection AI एजेंट को मानव की तरह उचित बोलने के मौके की प्रतीक्षा करने या उचित परिस्थिति में उपयोगकर्ता के अंतर्विरोध का निपटारा करने की क्षमता प्रदान करता है, जिससे अधिक प्राकृतिक बातचीत का अनुभव बनाया जा सकता है।[] (https://www.agora.io/en/blog/making-voice-ai-agents-more-human-with-ten-vad-and-turn-detection/)
TEN Agent पारिस्थितिकी: बहुमाध्यमिक वास्तविक समय AI का आधार
TEN Agent TEN फ्रेमवर्क का प्रदर्शन परियोजना है, जो TEN VAD, TEN Turn Detection आदि मुख्य घटकों को एकीकृत करता है और बोलने, वीडियो, पाठ आदि के बहुमाध्यमिक वास्तविक समय अंतरक्रिया का समर्थन करता है। इसकी पारिस्थितिकी में भूमिका निम्नलिखित है:
- **अविच्छिन्न एकीकरण**: TEN VAD और TEN Turn Detection TEN फ्रेमवर्क के प्लगइन के रूप में कार्य करते हैं, जिन्हें विकासकर्ताओं द्वारा बोलने वाले एजेंट विकास प्रक्रिया में सरल सेटिंग के साथ एम्बेड किया जा सकता है, जो Deepgram, ElevenLabs आदि सेवाओं के साथ एम्बेड करने के लिए समर्थन करता है।