हाल के दिनों में, मेटा कंपनी ने एक छोटे अनुमान मॉडल, जिसका नाम MobileLLM-R1 है, लॉन्च किया है, जिसके कारण "छोटे AI" के उद्योग में व्यापक ध्यान आकर्षित हुआ है। पहले, कृत्रिम बुद्धिमत्ता मॉडल की शक्ति आमतौर पर उनके बड़े अनुमान संख्या से जुड़ी रही है, जिसमें कई मॉडल के अनुमान 100 बिलियन या अधिक हो सकते हैं।

हालांकि, अत्यधिक बड़े मॉडल उद्योग में उपयोग करते समय कई समस्याओं का सामना करते हैं, जैसे नीचे के सिस्टम के प्रति नियंत्रण की कमी, तीसरे पक्ष के क्लाउड सेवाओं पर निर्भरता और लागत के अनुमान असंभव होना। इन चुनौतियों के लिए, छोटे भाषा मॉडल (SLMs) के विकास की गति बढ़ रही है, जो उद्योग की लागत, गोपनीयता और नियंत्रण की आवश्यकता को पूरा करने के लिए डिज़ाइन किए गए हैं।

image.png

MobileLLM-R1 श्रृंखला मॉडल में 140M, 360M और 950M अनुमान आकार शामिल हैं, जो गणित, कोडिंग और विज्ञान तर्क के लिए विशेष रूप से अनुकूलित हैं। इन मॉडलों के "गहरा और पतला" आर्किटेक्चर डिज़ाइन है, जो अधिक अनुकूलित प्रशिक्षण प्रक्रिया के माध्यम से सीमित संसाधन वाले उपकरणों पर जटिल कार्य कर सकते हैं। इसके अलावा, MobileLLM-R1 MATH बेंचमार्क पर अलीबाबा के Qwen3-0.6B से थोड़ा बेहतर प्रदर्शन करता है, खासकर LiveCodeBench कोडिंग परीक्षण में अत्यधिक उत्कृष्ट प्रदर्शन करता है, जो विकास उपकरणों में स्थानीय कोड सहायता के लिए उपयुक्त है।

ध्यान देने योग्य बात यह है कि MobileLLM-R1 अब तक मेटा के FAIR गैर-व्यावसायिक लाइसेंस के तहत जारी किया गया है, जो किसी भी व्यावसायिक उपयोग के लिए अवैध है, इसलिए इसे अध्ययन नीति या आंतरिक उपकरण के रूप में अधिक उपयुक्त माना जाता है, जबकि व्यावसायिक उत्पाद के रूप में सीधे उपयोग करने के लिए नहीं।

छोटे भाषा मॉडल के प्रतिस्पर्धा में, Google के Gemma3 (270M अनुमान) अत्यधिक कुशल प्रदर्शन के लिए जाने जाते हैं, और उनका लाइसेंस अधिक ढीला है, जो उद्योग के लिए अनुकूलन के लिए उपयुक्त है। दूसरी ओर, Alibaba के Qwen3-0.6B एक अच्छा विकल्प है, जो व्यावसायिक उपयोग के बिना कोई सीमा नहीं रखता है। Nvidia के Nemotron-Nano में नियंत्रण कार्यक्षमता के साथ विशिष्ट लाभ है, जो विकासकर्ताओं को अपनी आवश्यकताओं के अनुसार अनुमान प्रक्रिया के अनुकूलन की अनुमति देता है।

जैसे-जैसे उद्योग को छोटे मॉडल से नियंत्रण और आर्थिकता के लाभ के बारे में समझ आ रही है, उद्योग छोटे विशेष अनुमान मॉडल की ओर बढ़ रहा है। बहुत सारे उद्योग जानते हैं कि छोटे मॉडल अधिक पूर्वानुमान और गोपनीयता सुरक्षा प्रदान कर सकते हैं। इसके अलावा, जटिल समस्याओं के समाधान के लिए एक श्रृंखला छोटे विशेष मॉडल का उपयोग करने के विचार, सॉफ्टवेयर उद्योग के माइक्रोसर्विस आर्किटेक्चर की ओर बढ़ने के समान है।

यह परिवर्तन यह नहीं दर्शाता कि बड़े मॉडल विलोपित हो जाएंगे, बल्कि वे आगे भी अपना काम करते रहेंगे, प्रशिक्षण डेटा के अनुकूलन के माध्यम से नई पीढ़ी के छोटे मॉडल के लिए आदर्श प्रशिक्षण सेट प्रदान करते रहेंगे। यह प्रवृत्ति दर्शाती है कि भविष्य में AI विकास अधिक स्थायी होगा, और बड़ी कंपनियां अधिक व्यावहारिक AI भविष्य की ओर बढ़ रही हैं।

huggingface: https://huggingface.co/facebook/MobileLLM-R1-950M

मुख्य बातें:

🌟 **मेटा ने MobileLLM-R1 श्रृंखला छोटे अनुमान मॉडल लॉन्च किया है, जो गणित, कोडिंग और विज्ञान तर्क पर केंद्रित है।**

🔍 **छोटे मॉडल उद्योग में लागत नियंत्रण, गोपनीयता सुरक्षा और उच्च कार्यक्षमता के लाभ प्रदान करते हैं।**

🚀 **उद्योग "छोटे AI" की ओर परिवर्तन कर रहा है, उद्योग जटिल समस्याओं के समाधान के लिए अधिक छोटे विशेष मॉडल के उपयोग के पक्ष में है।**