DeepSeek ने हाल ही में लॉन्च किए गए मॉडल की श्रृंखला ने वैश्विक AI समुदाय में हलचल मचा दी है। DeepSeek-V3 ने कम लागत पर उच्च प्रदर्शन प्राप्त किया है, और कई परीक्षणों में शीर्ष बंद स्रोत मॉडलों के बराबर है; DeepSeek-R1 ने नवोन्मेषी प्रशिक्षण विधियों के माध्यम से मॉडल को शक्तिशाली तर्क क्षमता दिखाई है, जो OpenAI o1 के आधिकारिक संस्करण के समकक्ष है, और इसने मॉडल वजन को ओपन-सोर्स किया है, AI क्षेत्र में नई सफलताएँ और विचार लाए हैं।

DeepSeek ने सभी प्रशिक्षण तकनीकों को भी सार्वजनिक किया है। R1 OpenAI के o1 मॉडल के समकक्ष है, और बाद के प्रशिक्षण चरण में बड़े पैमाने पर सुदृढीकरण शिक्षण तकनीक का उपयोग किया गया है। DeepSeek का कहना है कि R1 गणित, कोड, प्राकृतिक भाषा तर्क आदि कार्यों में o1 के बराबर है, और API की कीमत o1 की 4% से भी कम है।

Deepseek-r1-logo-880x495.png

DeepSeek R1 बहुत मजबूत है! मेटा इंजीनियरों में हड़कंप: पागलपन से विभाजन कर रहे हैं, नकल करने की कोशिश कर रहे हैं

हाल ही में विदेशी अनाम कार्यस्थल समुदाय teamblind पर एक मेटा कर्मचारी के अनाम पोस्ट "Meta genai org in panic mode" ने विशेष रूप से ध्यान आकर्षित किया। DeepSeek V3 के लॉन्च ने Llama 4 को बेंचमार्क परीक्षणों में पूरी तरह से पीछे छोड़ दिया, मेटा की जनरेटिव AI टीम में हड़कंप मचा दिया। "एक अनाम चीनी कंपनी" ने 550 लाख डॉलर के बजट से प्रशिक्षण पूरा कर लिया और मौजूदा बड़े मॉडलों को चुनौती दी।

मेटा के इंजीनियर DeepSeek को पागलपन से तोड़ने की कोशिश कर रहे हैं, जबकि प्रबंधन स्तर उच्च लागत को उच्चतम स्तर पर कैसे समझाए, इस बारे में चिंतित है, क्योंकि उनकी टीम के "नेताओं" का वेतन DeepSeek V3 प्रशिक्षण लागत से अधिक है। DeepSeek R1 का आगमन स्थिति को और अधिक खराब कर देता है, हालांकि कुछ जानकारी अभी नहीं दी जा सकती, लेकिन जल्द ही सार्वजनिक की जाएगी, तब स्थिति और भी प्रतिकूल हो सकती है।

截屏2025-01-24 16.35.10.png

मेटा कर्मचारी के अनाम पोस्ट का अनुवाद निम्नलिखित है (DeepSeek R1 द्वारा अनुवादित):

मेटा जनरेटिव AI विभाग आपातकालीन स्थिति में है

यह सब DeepSeek V3 से शुरू हुआ - जिसने Llama 4 के बेंचमार्क परीक्षण के परिणामों को तुरंत अप्रचलित बना दिया। और भी शर्मनाक है, "एक अनाम चीनी कंपनी ने केवल 500 लाख डॉलर के प्रशिक्षण बजट से" ऐसा ब्रेकथ्रू किया।

इंजीनियरों की टीम DeepSeek संरचना को पागलपन से तोड़ने में लगी है, सभी तकनीकी विवरणों की नकल करने की कोशिश कर रही है। यह कोई अतिशयोक्ति नहीं है, हमारा कोड बेस पूरी तरह से खोजा जा रहा है।

प्रबंधन स्तर विभाग के विशाल खर्चों की वैधता को लेकर चिंतित है। जब प्रत्येक जनरेटिव AI विभाग के "नेता" की वार्षिक आय DeepSeek V3 की पूरी प्रशिक्षण लागत से अधिक है, और ऐसे "नेता" हम दर्जनों में पाल रहे हैं, तो वे उच्चतम स्तर पर कैसे समझाएंगे?

DeepSeek R1 स्थिति को और अधिक गंभीर बनाता है। हालांकि गुप्त जानकारी का खुलासा नहीं किया जा सकता, लेकिन संबंधित डेटा जल्द ही सार्वजनिक किया जाएगा।

यह एक कुशल तकनीकी-उन्मुख टीम होनी चाहिए थी, लेकिन प्रभाव की दौड़ में बड़ी संख्या में लोगों के प्रवेश के कारण संगठनात्मक संरचना जानबूझकर बढ़ गई है। इस शक्ति खेल का परिणाम? अंततः सभी हारने वाले बन गए।

DeepSeek श्रृंखला मॉडल का परिचय

  • DeepSeek-V3: यह 671B के पैरामीटर वाले मिश्रित विशेषज्ञ (MoE) भाषा मॉडल है, जिसमें प्रत्येक टोकन 37B सक्रिय होता है। यह Multi-head Latent Attention (MLA) और DeepSeekMoE आर्किटेक्चर का उपयोग करता है, 14.8 ट्रिलियन उच्च गुणवत्ता वाले टोकन पर पूर्व-प्रशिक्षण करता है, और सुपरवाइज्ड फाइन-ट्यूनिंग और सुदृढीकरण शिक्षण के माध्यम से कई परीक्षणों में कुछ ओपन-सोर्स मॉडलों को पार कर गया है, GPT-4o, Claude 3.5 Sonnet जैसे शीर्ष बंद स्रोत मॉडलों के प्रदर्शन के बराबर है। प्रशिक्षण लागत कम है, केवल 278.8 लाख H800 GPU घंटे की आवश्यकता होती है, लगभग 557.6 लाख डॉलर, और प्रशिक्षण प्रक्रिया स्थिर है।

  • DeepSeek-R1: इसमें DeepSeek-R1-Zero और DeepSeek-R1 शामिल हैं। DeepSeek-R1-Zero बड़े पैमाने पर सुदृढीकरण शिक्षण प्रशिक्षण के माध्यम से बिना सुपरवाइज्ड फाइन-ट्यूनिंग (SFT) के आत्म-प्रमाणन, आत्म-चिंतन जैसी क्षमताएँ प्रदर्शित करता है, लेकिन इसमें पढ़ने की क्षमता की कमी और भाषा मिश्रण की समस्या है। DeepSeek-R1, DeepSeek-R1-Zero के आधार पर, बहु-चरण प्रशिक्षण और ठंडे प्रारंभ डेटा को पेश करता है, कुछ समस्याओं को हल करता है, और गणित, कोड, प्राकृतिक भाषा तर्क आदि कार्यों पर OpenAI o1 के आधिकारिक संस्करण के समकक्ष प्रदर्शन करता है। साथ ही, इसने विभिन्न पैरामीटर आकार के कई मॉडलों को ओपन-सोर्स किया है, ओपन-सोर्स समुदाय के विकास को बढ़ावा दिया है।

image (3).png

DeepSeek को इतना खास क्या बनाता है?

  • उत्कृष्ट प्रदर्शन: कई बेंचमार्क परीक्षणों में, DeepSeek-V3 और DeepSeek-R1 ने उत्कृष्ट प्रदर्शन किया है। जैसे DeepSeek-V3 ने MMLU, DROP आदि परीक्षणों में उत्कृष्ट परिणाम प्राप्त किए; DeepSeek-R1 ने AIME 2024, MATH-500 आदि परीक्षणों में उच्च सटीकता के साथ प्रदर्शन किया, OpenAI o1 के आधिकारिक संस्करण के समकक्ष या कुछ मामलों में उससे भी बेहतर।

  • प्रशिक्षण नवाचार:

  • DeepSeek-V3 ने सहायक हानि के बिना लोड संतुलन रणनीति और बहु-टोकन पूर्वानुमान लक्ष्य (MTP) का उपयोग किया, प्रदर्शन में गिरावट को कम किया और मॉडल के प्रदर्शन को बढ़ाया; FP8 प्रशिक्षण का उपयोग करके, इसने बड़े पैमाने पर मॉडल पर इसकी व्यवहार्यता को प्रमाणित किया।

  • DeepSeek-R1-Zero ने केवल सुदृढीकरण शिक्षण प्रशिक्षण के माध्यम से, सरल पुरस्कार और दंड संकेत पर आधारित मॉडल को अनुकूलित किया, इसने सिद्ध किया कि सुदृढीकरण शिक्षण मॉडल के तर्क क्षमता को बढ़ा सकता है; DeepSeek-R1 ने इस आधार पर ठंडे प्रारंभ डेटा का उपयोग करके मॉडल की स्थिरता और पढ़ने की क्षमता को बढ़ाया।

  • ओपन-सोर्स साझा करना: DeepSeek श्रृंखला मॉडल ओपन-सोर्स सिद्धांत का पालन करती है, मॉडल वजन को ओपन-सोर्स किया है, जैसे DeepSeek-V3 और DeepSeek-R1 और उनके डिस्टिल्ड छोटे मॉडल, उपयोगकर्ताओं को R1 के माध्यम से अन्य मॉडलों को प्रशिक्षण देने की अनुमति देते हैं, AI तकनीक के आदान-प्रदान और नवाचार को बढ़ावा देते हैं।

  • बहु-क्षेत्रीय लाभ: DeepSeek-R1 कई क्षेत्रों में मजबूत क्षमताएँ प्रदर्शित करता है, कोड क्षेत्र में, Codeforces प्लेटफ़ॉर्म पर उच्च रेटिंग प्राप्त करता है, अधिकांश मानव प्रतियोगियों को पार करता है; प्राकृतिक भाषा प्रसंस्करण कार्यों में, विभिन्न पाठ समझने और उत्पादन कार्यों को उत्कृष्टता से संभालता है।

  • उच्च मूल्य-प्रदर्शन अनुपात: DeepSeek श्रृंखला मॉडल API की कीमत सस्ती है। जैसे DeepSeek-V3 API इनपुट और आउटपुट की कीमत समान मॉडल की तुलना में बहुत कम है; DeepSeek-R1 API सेवा मूल्य निर्धारण भी प्रतिस्पर्धात्मक है, डेवलपर्स के उपयोग की लागत को कम करता है।

image (4).png

DeepSeek-R1 के उपयुक्त दृश्य

  • प्राकृतिक भाषा प्रसंस्करण कार्य: इसमें पाठ निर्माण, प्रश्न-उत्तर प्रणाली, मशीन अनुवाद, पाठ संक्षेपण आदि शामिल हैं। उदाहरण के लिए प्रश्न-उत्तर प्रणाली में, DeepSeek-R1 प्रश्न को समझ सकता है और तर्क क्षमता का उपयोग करके सही उत्तर दे सकता है; पाठ निर्माण कार्य में, यह दिए गए विषय के आधार पर उच्च गुणवत्ता वाले पाठ उत्पन्न कर सकता है।

  • कोड विकास: डेवलपर्स को कोड लिखने, प्रोग्राम को डिबग करने और कोड लॉजिक को समझने में मदद करता है। जैसे डेवलपर्स कोड समस्या का सामना करते हैं, DeepSeek-R1 कोड का विश्लेषण कर सकता है और समाधान प्रदान कर सकता है; यह कार्य वर्णन के आधार पर कोड ढांचे या विशिष्ट कोड स्निपेट भी उत्पन्न कर सकता है।

  • गणितीय समस्या समाधान: गणित शिक्षा, अनुसंधान आदि परिदृश्यों में, जटिल गणितीय समस्याओं को हल करना। जैसे DeepSeek-R1 AIME प्रतियोगिता से संबंधित प्रश्नों में उत्कृष्टता से प्रदर्शन करता है, इसे छात्रों को गणित सीखने में सहायता करने के लिए और शोधकर्ताओं को गणित की कठिनाइयों को हल करने के लिए उपयोग किया जा सकता है।

  • मॉडल अनुसंधान और विकास: AI शोधकर्ताओं को संदर्भ और उपकरण प्रदान करना, मॉडल डिस्टिलिंग, मॉडल संरचना और प्रशिक्षण विधियों में सुधार जैसे अनुसंधान के लिए। शोधकर्ता DeepSeek ओपन-सोर्स मॉडल के आधार पर प्रयोग कर सकते हैं, नए तकनीकी दिशाओं का अन्वेषण कर सकते हैं।

  • सहायक निर्णय: व्यावसायिक, वित्तीय आदि क्षेत्रों में, डेटा और जानकारी को संभालना, निर्णय सलाह प्रदान करना। जैसे बाजार डेटा का विश्लेषण करना, व्यवसायों के लिए विपणन रणनीतियों का निर्धारण करने में मदद करना; वित्तीय डेटा को संभालना, निवेश निर्णय में सहायता करना।

image (5).png

DeepSeek श्रृंखला मॉडल का संक्षिप्त उपयोग ट्यूटोरियल

  1. प्लेटफ़ॉर्म पर जाएँ: उपयोगकर्ता DeepSeek की आधिकारिक वेबसाइट (https://www.deepseek.com/) पर लॉगिन कर सकते हैं और प्लेटफ़ॉर्म पर जा सकते हैं।

  2. मॉडल चुनें: आधिकारिक वेबसाइट या ऐप में, डिफ़ॉल्ट बातचीत DeepSeek-V3 द्वारा संचालित होती है, "डीप थिंकिंग" मोड खोलने पर यह DeepSeek-R1 मॉडल द्वारा संचालित होती है। यदि API के माध्यम से कॉल कर रहे हैं, तो आवश्यकता के अनुसार कोड में संबंधित मॉडल पैरामीटर सेट करें, जैसे DeepSeek-R1 का उपयोग करते समय सेट करें model='deepseek-reasoner'

  3. कार्य इनपुट करें: बातचीत इंटरफ़ेस में प्राकृतिक भाषा में कार्य का विवरण इनपुट करें, जैसे "एक प्रेम उपन्यास लिखें", "इस कोड के कार्य को समझाएं", "गणितीय समीकरण हल करें" आदि; यदि API का उपयोग कर रहे हैं, तो API विनिर्देशों के अनुसार अनुरोध बनाएं, कार्य से संबंधित जानकारी को इनपुट पैरामीटर के रूप में पास करें।

  4. परिणाम प्राप्त करें: मॉडल कार्य को संसाधित करने के बाद परिणाम लौटाता है, इंटरफ़ेस पर उत्पन्न पाठ, उत्तर आदि को देखें; API का उपयोग करते समय, API प्रतिक्रिया से परिणाम डेटा को पार्स करके आगे की प्रक्रिया करें।

निष्कर्ष

DeepSeek श्रृंखला मॉडल अपनी उत्कृष्ट प्रदर्शन, नवोन्मेषी प्रशिक्षण विधियों, ओपन-सोर्स साझा करने की भावना और उच्च मूल्य-प्रदर्शन अनुपात के लाभों के कारण AI क्षेत्र में महत्वपूर्ण उपलब्धियाँ प्राप्त कर चुका है।

यदि आप AI तकनीक में रुचि रखते हैं, तो कृपया लाइक करें, टिप्पणी करें, और DeepSeek श्रृंखला मॉडल के बारे में अपने विचार साझा करें। साथ ही, DeepSeek के आगे के विकास पर नजर रखें, उम्मीद है कि यह AI क्षेत्र में और अधिक आश्चर्य और सफलताएँ लाएगा, AI तकनीक को निरंतर प्रगति की ओर बढ़ाएगा, और विभिन्न उद्योगों में अधिक परिवर्तन और अवसर लाएगा।