हाल ही में, हगिंग फेस ने पूरी तरह से खुला स्रोत भाषा मॉडल SmolLM3 का अनावरण किया है, जो 3B पैरामीटर वाला एक हल्का बड़ा भाषा मॉडल (LLM) है, जिसके अद्भुत प्रदर्शन और दक्ष डिज़ाइन ने उद्योग में व्यापक ध्यान आकर्षित किया है। SmolLM3 विभिन्न मानक परीक्षणों में Llama-3.2-3B और Qwen2.5-3B के समान स्तर के मॉडल से आगे निकल गया है, यहां तक कि 4B पैरामीटर वाले मॉडल Gemma3 के साथ भी प्रतिस्पर्धा करता है।

image.png

पता: https://huggingface.co/blog/smollm3

3B पैरामीटर, 4B मॉडल के बराबर प्रदर्शन

SmolLM3 एक 3B पैरामीटर वाला डिकोडर-विशेष ट्रांसफॉर्मर मॉडल है, जिसके लिए समूहित पूछताछ ध्यान (GQA) और NoPE तकनीकों का उपयोग किया गया है, जो दक्ष अनुमान और लंबे संदर्भ प्रबंधन क्षमता के साथ एक साथ आता है। मॉडल को 11.2 ट्रिलियन टोकन के विविध डेटा सेट पर प्रशिक्षित किया गया है, जिसमें वेब, कोड, गणित और तार्किक डेटा शामिल है, जो ज्ञान, तार्किक, गणित और कोडिंग क्षेत्रों में इसके मजबूत प्रदर्शन सुनिश्चित करता है। आधिकारिक जानकारी के अनुसार, SmolLM3 HellaSwag, ARC, BoolQ जैसे ज्ञान और तार्किक मानक परीक्षणों में शीर्ष पर है, और Qwen3-4B और Gemma3-4B जैसे 4B पैरामीटर वाले मॉडल के साथ अपने समान है, जो छोटे मॉडल के अद्भुत संभावनाओं को दर्शाता है।

 द्विकल्पीय अनुमान, विविध कार्यों के लिए लचीला

SmolLM3 में "सोचें" (think) और "असोचे" (no-think) दोनों मोड के साथ विशिष्ट द्विकल्पीय अनुमान क्षमता है। "सोचें" मोड चालू करने पर, मॉडल जटिल कार्यों जैसे AIME2025 (36.7% vs 9.3%) , LiveCodeBench (30.0% vs 15.2%) और GPQA Diamond (41.7% vs 35.7%) जैसे परीक्षणों में निर्णायक रूप से बढ़त हासिल करता है। इस लचीले अनुमान मोड के कारण यह अपने आप कार्य की आवश्यकता के अनुसार समायोजित कर सकता है, जो गति और गहरे अनुमान के बीच संतुलन बनाए रखता है और तेज जवाब देने से लेकर जटिल समस्याओं के समाधान तक कई स्थितियों को पूरा करता है।

 128K संदर्भ, छह भाषाओं में सुचारू स्विचिंग

SmolLM3 लंबे संदर्भ प्रबंधन में अद्भुत प्रदर्शन करता है, जिसमें 64K संदर्भ का समर्थन होता है और YaRN तकनीक के माध्यम से 128K टोकन तक विस्तारित किया जा सकता है, जो Ruler64k परीक्षण में लंबे अनुक्रम प्रबंधन क्षमता को दर्शाता है। इसके अलावा, मॉडल छह भाषाओं (अंग्रेजी, फ्रेंच, स्पैनिश, जर्मन, इटालियन, पुर्तगाली) के साथ विशिष्ट रूप से समर्थन करता है और अरबी, चीनी और रूसी भाषाओं में थोड़े प्रशिक्षण के साथ अच्छा प्रदर्शन करता है, जो बहुभाषाई कार्यों में उत्कृष्ट क्षमता को दर्शाता है। Global MMLU, Flores-200 जैसे परीक्षणों में SmolLM3 की बहुभाषाई क्षमता समकक्ष मॉडलों में शीर्ष पर है, जो वैश्विक अनुप्रयोग परिदृश्यों के लिए विश्वसनीय समर्थन प्रदान करता है।

 पूर्ण खुला स्रोत, विकासक पारिस्थितिकी को शक्ति प्रदान करता है

Hugging Face हमेशा खुला स्रोत आदर्श के साथ रहा है, SmolLM3 मॉडल भार और शिक्षण डेटा मिश्रण, शिक्षण कॉन्फ़िगरेशन और कोड के साथ खुला स्रोत है, जिससे विकासक हगिंग फेस के smollm संग्रहालय से विस्तृत जानकारी प्राप्त कर सकते हैं। इस प्रकार के अद्वितीय "शिक्षण नीति" ने शैक्षिक अनुसंधान और व्यावसायिक अनुप्रयोग के प्रवेश बाधाओं को कम कर दिया है, जिससे विकासक खुले डेटा सेट और फ्रेमवर्क के आधार पर मॉडल के पुनर्निर्माण या अनुकूलन कर सकते हैं। AIbase के अनुसार, यह कदम खुले स्रोत AI पारिस्थितिकी के विकास को आगे बढ़ाएगा, जो किनारे के उपकरणों के अनुप्रयोग और विशिष्ट अनुप्रयोगों के लिए अधिक संभावनाओं को प्रदान करेगा।

 कुशल डिज़ाइन, किनारे के उपकरणों के लिए नई विकल्प

SmolLM3 कुशल अनुमान के लिए डिज़ाइन किया गया है, जिसमें समूहित पूछताछ ध्यान योजना के उपयोग से अनुमान के दौरान KV कैश उपयोग कम हो गया है, जबकि WebGPU समर्थन के साथ, यह ब्राउज़र या किनारे के उपकरणों पर चलने के लिए उपयुक्त है। बड़े पैमाने वाले मॉडल के सापेक्ष, SmolLM3 दक्षता और गणना लागत के बीच "पारेटो अनुकूलता" संतुलन पर पहुंच गया है, जो शिक्षा, कोडिंग, ग्राहक समर्थन जैसी स्थितियों में एक ऊंचे मूल्य वाला समाधान प्रदान करता है।

 उद्योग प्रभाव और भविष्य की दृष्टि

SmolLM3 के उत्सर्जन ने छोटे आकार के भाषा मॉडल के प्रदर्शन और दक्षता में महत्वपूर्ण अग्रगति को चिह्नित किया है। इसकी खुला स्रोत प्रकृति, लंबे संदर्भ समर्थन और बहुभाषाई क्षमता ने शैक्षिक अनुसंधान, स्टार्टअप और छोटे और मध्यम आकार के व्यवसायों के लिए एक आदर्श विकल्प बना दिया है। AIbase की अनुमान है कि SmolLM3 शिक्षा, ग्राहक सेवा और स्थानीयकरण अनुप्रयोगों जैसे क्षेत्रों में एक आगे बढ़ते अनुप्रयोग गर्मी लाएगा, और इसके पूर्ण खुला स्रोत शिक्षण प्रक्रिया नए विकासकों के लिए AI मॉडल के अनुकूलन और नवाचार में प्रेरणा देगा।

SmolLM3 3B पैरामीटर के साथ 4B मॉडल के समान प्रदर्शन करता है, जो कुशल AI क्षेत्र में छोटे मॉडल के असीमित संभावनाओं को दर्शाता है। हगिंग फेस ने खुला स्रोत शिक्षण विवरण और डेटा के माध्यम से उद्योग में स्पष्टता और सहयोग के एक उदाहरण बनाया है। हम SmolLM3 के अधिक वास्तविक परिस्थितियों में अनुप्रयोग प्रदर्शन की उम्मीद करते हैं और इसके आगे के अपडेट के बारे में निरंतर निगरानी करते रहेंगे।