ओपन एआई ने महाशक्ति ओपन सोर्स की! जीपीटी-ओएसएस मॉडल लीक हुआ 116 बिलियन पैरामीटर मोई आर्किटेक्चर चौंका देने वाला खुलासा आईएम के नए युग के आगमन के बारे में?

AIbase基地

द्वारा प्रकाशितAI समाचार · 7 मिनट पढ़ें · Aug 4, 2025

22

हाल ही में ऑनलाइन ओपनएआई के "जीपीटी-ओएसएस" (जीपीटी ओपन सोर्स सॉफ्टवेयर) नामक ओपन सोर्स मॉडल श्रृंखला के आगामी लॉन्च के बारे में एक महत्वपूर्ण जानकारी फैल गई, जिसने उद्योग में व्यापक ध्यान आकर्षित किया। अप्राधिकृत डेटा फ़ाइल के अनुसार, यह सिस्टम श्रृंखला मॉडल के पैरामीटर के आकार 2 बिलियन से 12 बिलियन तक हैं, और इसमें आधुनिक MoE (एक्सपर्ट्स का मिश्रण) आर्किटेक्चर का उपयोग किया गया है, जो लंबे संदर्भ विस्तार और दक्ष ध्यान योजना के साथ जुड़ा हुआ है, जो एक शक्तिशाली कार्यक्षमता के संभावित संभावना दिखाता है। AIbase संपादक टीम ने नवीनतम जानकारी के आधार पर, जीपीटी-ओएसएस के तकनीकी अंतर्दृष्टि और एआई उद्योग पर संभावित प्रभाव के बारे में गहराई से विश्लेषण किया।

MoE आर्किटेक्चर में अप्रत्याशित बदलाव: 11.6 बिलियन अस्पष्ट पैरामीटर की शक्तिशाली इंजन जीपीटी-ओएसएस श्रृंखला मॉडल MoE (एक्सपर्ट्स का मिश्रण) ट्रांसफॉर्मर आर्किटेक्चर का उपयोग करता है, जिसमें 36 स्तर, 128 एक्सपर्ट्स और टॉप-4 रूटिंग मेकैनिज्म होते हैं, जो कुल अस्पष्ट पैरामीटर 11.6 बिलियन तक पहुंच जाते हैं, और सक्रिय पैरामीटर लगभग 510 मिलियन होते हैं। इस डिज़ाइन के माध्यम से, गणना कार्य कई एक्सपर्ट मॉड्यूल में विभाजित किए जाते हैं, जिससे गणना संसाधन खपत बहुत कम हो जाती है, जबकि मॉडल की उच्च बल को बनाए रखा जाता है। पारंपरिक घन मॉडल की तुलना में, MoE आर्किटेक्चर जीपीटी-ओएसएस को अधिक व्यापक हार्डवेयर वातावरण में चलाने में सक्षम बनाता है, ओपन सोर्स समुदाय और विकासकर्ताओं के लिए अधिक लचीलापन प्रदान करता है। मुख्य तकनीकी विशेषताएं: दक्ष MoE डिज़ाइन: 128 एक्सपर्ट मॉड्यूल Top-4 रूटिंग के माध्यम से सबसे अच्छे एक्सपर्ट को कार्य करने के लिए चुनते हैं, जो तर्क की दक्षता में उल्लेखनीय वृद्धि करते हैं।

अत्यधिक बड़े पैरामीटर: कुल 11.6 बिलियन अस्पष्ट पैरामीटर, सक्रिय पैरामीटर केवल 510 मिलियन हैं, जो दक्ष गणना और शक्तिशाली कार्यक्षमता के बीच संतुलन सुनिश्चित करते हैं।

लचीला डेप्लॉयमेंट: MoE आर्किटेक्चर उच्च प्रदर्शन GPU समूह के आश्रय पर कम निर्भरता कम करता है, जिससे छोटे और मध्यम टीम भी इस मॉडल का उपयोग विकास के लिए कर सकते हैं।

लंबा संदर्भ विस्तार: 131k Tokens की अद्भुत क्षमता जीपीटी-ओएसएस ने संदर्भ संसाधन क्षमता में महत्वपूर्ण अप्रगति की है। इसका प्रारंभिक संदर्भ लंबाई 4096 Tokens है, जो RoPE (Rotary Position Embedding) तकनीक के माध्यम से लगभग 131k Tokens तक विस्तारित हो गई है। इस लंबे संदर्भ क्षमता के कारण मॉडल अत्यधिक लंबे दस्तावेजों और जटिल बातचीत दृश्यों के साथ काम कर सकता है, जो शैक्षणिक अनुसंधान, कानूनी विश्लेषण और बड़े कोड उत्पादन जैसे उच्च आउटपुट दृश्यों में उपयोगी है।

इसके अलावा, मॉडल फ्लोटिंग विंडो ध्यान तकनीक (Sliding Window Attention) का उपयोग करता है, जिसका विंडो आकार 128 Tokens है, GQA (Grouped Query Attention) तकनीक के साथ जुड़ा हुआ है, जिसके कारण प्रति Token प्रति स्तर KV कैश खपत लगभग 72 KB होती है। इस डिज़ाइन से मेमोरी खपत बहुत कम हो गई है, जबकि दक्ष समानांतर संसाधन क्षमता बरकरार रखी गई है, जो लंबे दस्तावेजों के संसाधन के लिए उत्कृष्ट प्रदर्शन सुनिश्चित करता है। ध्यान योजना अपग्रेड: 64 हेड GQA और उच्च आउटपुट क्षमता जीपीटी-ओएसएस की ध्यान योजना भी ध्यान आकर्षित करती है।

मॉडल में 64 ध्यान हेड होते हैं, जिनका प्रत्येक हेड का आयाम 64 होता है, GQA तकनीक के साथ अतिरिक्त गणना दक्षता में सुधार करते हैं। पारंपरिक बहु-हेड ध्यान की तुलना में, GQA समूहित प्रश्नों के माध्यम से गणना जटिलता कम करता है, जबकि अधिक चौड़ा ध्यान प्रोजेक्शन (छिद्र आयाम के बराबर चौड़ा) मॉडल क्षमता में वृद्धि करता है। ऐसा डिज़ाइन विशेष रूप से उच्च आउटपुट क्षमता और कम देरी वाले दृश्यों के लिए उपयुक्त है, जैसे कि वास्तविक समय अनुवाद, कोड पूरा करना और लंबे दस्तावेज उत्पादन।

प्रदर्शन लाभ: GQA और फ्लोटिंग विंडो के संयोजन से: KV कैश की मेमोरी खपत में उल्लेखनीय कमी होती है, जो डीकोडिंग दक्षता में सुधार करता है।

NTK RoPE समर्थन: असमान समय जागरूक RoPE विस्तार के माध्यम से, लंबे संदर्भ दृश्यों में स्थानीयकरण संकेत के स्थिरता सुनिश्चित करता है।

उच्च आउटपुट अपग्रेड: मॉडल डीकोडिंग बाजू में उत्कृष्ट KV खपत और समानांतर विशेषता होती है, जो बड़े पैमाने पर उत्पादन वातावरण के लिए उपयुक्त है।

जीपीटी-ओएसएस एमओई ओपनएआई एआईबेस

यह लेख AIbase दैनिक से है

【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।

—— AIbase दैनिक समूह द्वारा बनाया गया

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

GEO Brand Visibility

AI Visibility Audit

AI Search Visibility Checker

GEO Ranking Monitor

AI Conversation Insight

GEO Promotion Link Detection

Website AI Friendliness Detection

GEO Ranking Optimization System

GEO Ranking Optimization

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

LLM API Hub

AI Models Finder

Model Providers

LLM Leaderboard

LLM API Proxy Checker

Compare LLMs

LLM Cost Calculator

LLM Arena

AI Model Compatibility Checker

AI Deployment Calculator

AIbase基地

यह लेख AIbase दैनिक से है