हाल ही में ऑनलाइन ओपनएआई के "जीपीटी-ओएसएस" (जीपीटी ओपन सोर्स सॉफ्टवेयर) नामक ओपन सोर्स मॉडल श्रृंखला के आगामी लॉन्च के बारे में एक महत्वपूर्ण जानकारी फैल गई, जिसने उद्योग में व्यापक ध्यान आकर्षित किया। अप्राधिकृत डेटा फ़ाइल के अनुसार, यह सिस्टम श्रृंखला मॉडल के पैरामीटर के आकार 2 बिलियन से 12 बिलियन तक हैं, और इसमें आधुनिक MoE (एक्सपर्ट्स का मिश्रण) आर्किटेक्चर का उपयोग किया गया है, जो लंबे संदर्भ विस्तार और दक्ष ध्यान योजना के साथ जुड़ा हुआ है, जो एक शक्तिशाली कार्यक्षमता के संभावित संभावना दिखाता है। AIbase संपादक टीम ने नवीनतम जानकारी के आधार पर, जीपीटी-ओएसएस के तकनीकी अंतर्दृष्टि और एआई उद्योग पर संभावित प्रभाव के बारे में गहराई से विश्लेषण किया।
MoE आर्किटेक्चर में अप्रत्याशित बदलाव: 11.6 बिलियन अस्पष्ट पैरामीटर की शक्तिशाली इंजन जीपीटी-ओएसएस श्रृंखला मॉडल MoE (एक्सपर्ट्स का मिश्रण) ट्रांसफॉर्मर आर्किटेक्चर का उपयोग करता है, जिसमें 36 स्तर, 128 एक्सपर्ट्स और टॉप-4 रूटिंग मेकैनिज्म होते हैं, जो कुल अस्पष्ट पैरामीटर 11.6 बिलियन तक पहुंच जाते हैं, और सक्रिय पैरामीटर लगभग 510 मिलियन होते हैं। इस डिज़ाइन के माध्यम से, गणना कार्य कई एक्सपर्ट मॉड्यूल में विभाजित किए जाते हैं, जिससे गणना संसाधन खपत बहुत कम हो जाती है, जबकि मॉडल की उच्च बल को बनाए रखा जाता है। पारंपरिक घन मॉडल की तुलना में, MoE आर्किटेक्चर जीपीटी-ओएसएस को अधिक व्यापक हार्डवेयर वातावरण में चलाने में सक्षम बनाता है, ओपन सोर्स समुदाय और विकासकर्ताओं के लिए अधिक लचीलापन प्रदान करता है। मुख्य तकनीकी विशेषताएं: दक्ष MoE डिज़ाइन: 128 एक्सपर्ट मॉड्यूल Top-4 रूटिंग के माध्यम से सबसे अच्छे एक्सपर्ट को कार्य करने के लिए चुनते हैं, जो तर्क की दक्षता में उल्लेखनीय वृद्धि करते हैं।

अत्यधिक बड़े पैरामीटर: कुल 11.6 बिलियन अस्पष्ट पैरामीटर, सक्रिय पैरामीटर केवल 510 मिलियन हैं, जो दक्ष गणना और शक्तिशाली कार्यक्षमता के बीच संतुलन सुनिश्चित करते हैं।
लचीला डेप्लॉयमेंट: MoE आर्किटेक्चर उच्च प्रदर्शन GPU समूह के आश्रय पर कम निर्भरता कम करता है, जिससे छोटे और मध्यम टीम भी इस मॉडल का उपयोग विकास के लिए कर सकते हैं।
लंबा संदर्भ विस्तार: 131k Tokens की अद्भुत क्षमता जीपीटी-ओएसएस ने संदर्भ संसाधन क्षमता में महत्वपूर्ण अप्रगति की है। इसका प्रारंभिक संदर्भ लंबाई 4096 Tokens है, जो RoPE (Rotary Position Embedding) तकनीक के माध्यम से लगभग 131k Tokens तक विस्तारित हो गई है। इस लंबे संदर्भ क्षमता के कारण मॉडल अत्यधिक लंबे दस्तावेजों और जटिल बातचीत दृश्यों के साथ काम कर सकता है, जो शैक्षणिक अनुसंधान, कानूनी विश्लेषण और बड़े कोड उत्पादन जैसे उच्च आउटपुट दृश्यों में उपयोगी है।
इसके अलावा, मॉडल फ्लोटिंग विंडो ध्यान तकनीक (Sliding Window Attention) का उपयोग करता है, जिसका विंडो आकार 128 Tokens है, GQA (Grouped Query Attention) तकनीक के साथ जुड़ा हुआ है, जिसके कारण प्रति Token प्रति स्तर KV कैश खपत लगभग 72 KB होती है। इस डिज़ाइन से मेमोरी खपत बहुत कम हो गई है, जबकि दक्ष समानांतर संसाधन क्षमता बरकरार रखी गई है, जो लंबे दस्तावेजों के संसाधन के लिए उत्कृष्ट प्रदर्शन सुनिश्चित करता है। ध्यान योजना अपग्रेड: 64 हेड GQA और उच्च आउटपुट क्षमता जीपीटी-ओएसएस की ध्यान योजना भी ध्यान आकर्षित करती है।
मॉडल में 64 ध्यान हेड होते हैं, जिनका प्रत्येक हेड का आयाम 64 होता है, GQA तकनीक के साथ अतिरिक्त गणना दक्षता में सुधार करते हैं। पारंपरिक बहु-हेड ध्यान की तुलना में, GQA समूहित प्रश्नों के माध्यम से गणना जटिलता कम करता है, जबकि अधिक चौड़ा ध्यान प्रोजेक्शन (छिद्र आयाम के बराबर चौड़ा) मॉडल क्षमता में वृद्धि करता है। ऐसा डिज़ाइन विशेष रूप से उच्च आउटपुट क्षमता और कम देरी वाले दृश्यों के लिए उपयुक्त है, जैसे कि वास्तविक समय अनुवाद, कोड पूरा करना और लंबे दस्तावेज उत्पादन।
प्रदर्शन लाभ: GQA और फ्लोटिंग विंडो के संयोजन से: KV कैश की मेमोरी खपत में उल्लेखनीय कमी होती है, जो डीकोडिंग दक्षता में सुधार करता है।
NTK RoPE समर्थन: असमान समय जागरूक RoPE विस्तार के माध्यम से, लंबे संदर्भ दृश्यों में स्थानीयकरण संकेत के स्थिरता सुनिश्चित करता है।
उच्च आउटपुट अपग्रेड: मॉडल डीकोडिंग बाजू में उत्कृष्ट KV खपत और समानांतर विशेषता होती है, जो बड़े पैमाने पर उत्पादन वातावरण के लिए उपयुक्त है।