एंट बेलिंग मॉडल टीम हाल ही में अपने नए कुशल रिज़ॉल्यूशन मॉडल —— रिंग-मिनी-स्पर्स-2.0-एक्सप को ओपन सोर्स कर दिया है। यह मॉडल लिंग 2.0 आर्किटेक्चर पर आधारित है, जो लंबे अनुक्रम डिकोडिंग के लिए विशेष रूप से अपनाया गया है, और एक नवाचीन झरझर ध्यान योजना का उपयोग करता है।
इस नई आर्किटेक्चर ने ऊंचे झरझर अनुपात के मिश्रण ऑफ एक्सपर्ट (MoE) संरचना के साथ झरझर ध्यान योजना के एकीकरण के साथ विशेष रूप से जुड़े हुए हैं, जिसका उद्देश्य जटिल लंबे अनुक्रम रिज़ॉल्यूशन स्थिति में मॉडल के प्रदर्शन को बढ़ाना है।

टीम के अनुसार, आर्किटेक्चर और रिज़ॉल्यूशन फ्रेमवर्क के गहरे सहयोग अनुकूलन के कारण, रिंग-मिनी-स्पर्स-2.0-एक्सप अपने पूर्ववर्ती रिंग-मिनी-2.0 की तुलना में लंबे अनुक्रम के प्रबंधन में लगभग तीन गुना बढ़े हुए थ्रूपुट के साथ आया है।
अनेक कठिन रिज़ॉल्यूशन मानक परीक्षण में, इस मॉडल ने सतत रूप से SOTA (State of the Art) प्रदर्शन बरकरार रखा, जिससे इसकी अद्वितीय संदर्भ प्रबंधन क्षमता और कुशल रिज़ॉल्यूशन क्षमता के बारे में पता चलता है, जिससे ओपन सोर्स समुदाय के लिए एक नई हल्का समाधान प्रदान किया गया है।
लिंग 2.0 स्पर्स आर्किटेक्चर मुख्य रूप से बड़े भाषा मॉडल के भविष्य में दो मुख्य प्रवृत्ति: संदर्भ लंबाई के विस्तार और परीक्षण के समय के विस्तार के समाधान के लिए बनाया गया है। टीम ने मिश्रण ऑफ ब्लॉक एटेंशन (MoBA) के डिज़ाइन विचार के आधार पर, ब्लॉक-स्तरीय झरझर एटेंशन (block-wise sparse attention) का उपयोग किया, जहां इनपुट के Key और Value को ब्लॉक में विभाजित किया गया है, और प्रत्येक query के head विमान में top-k ब्लॉक चुना गया है।
केवल चयनित ब्लॉक पर softmax गणना की जाती है, जिससे गणना खर्च बहुत कम हो जाता है। इसके अलावा, टीम ने MoBA डिज़ाइन के साथ Grouped Query Attention (GQA) के संयोजन के माध्यम से, एक ही समूह में query heads के लिए top-k ब्लॉक चयन परिणाम साझा किए गए हैं, जिससे I/O खर्च कम हो गए हैं।
GitHub:https://github.com/inclusionAI/Ring-V2/tree/main/moba
मुख्य बिंदुओं पर ध्यान दें:
🌟 नया मॉडल रिंग-मिनी-स्पर्स-2.0-एक्सप लंबे अनुक्रम रिज़ॉल्यूशन में अद्वितीय प्रदर्शन करता है, जिसका थ्रूपुट लगभग तीन गुना बढ़ गया है।
🔍 इस मॉडल में एक नवाचीन झरझर ध्यान योजना का उपयोग किया गया है, जो कुशल रिज़ॉल्यूशन और संदर्भ प्रबंधन क्षमता के साथ एक साथ ध्यान देता है।
📥 मॉडल विभिन्न मंचों पर ओपन सोर्स कर दिया गया है, जिससे समुदाय इसका अनुप्रयोग और अध्ययन कर सकता है।




