एआई मॉडल वास्तुविज्ञान में एक गहरा परिवर्तन हो रहा है। डिफ्यूज़न भाषा मॉडल अपने समानांतर उत्पादन और कुशल अनुमान क्षमता के कारण उद्योग के ध्यान का केंद्र बन रहे हैं। 9 अक्टूबर को, AI अनुसंधान संस्थान रेडिकल न्यूमेरिक्स ने RND1-Base का आधिकारिक रूप से अनावरण किया, जो अब तक का सबसे बड़ा ओपन सोर्स डिफ्यूज़न भाषा मॉडल है, जिसके पैरामीटर का आकार 30 बिलियन है, जिसमें सक्रिय पैरामीटर 3 बिलियन हैं, और यह एक झरझर विशेषज्ञ मिश्रण वास्तुविज्ञान का उपयोग करता है। यह मॉडल न केवल मानक परीक्षण में अच्छा प्रदर्शन करता है, बल्कि पूर्ण वेट, प्रशिक्षण व्यंजन और अनुमान कोड के साथ खुला है, जिसका उद्देश्य डिफ्यूज़न भाषा मॉडल के क्षेत्र में बाद के प्रशिक्षण और अनुमान अनुसंधान को तेज करना है।

RND1-Base Qwen3-30BA3B के स्व-अनुक्रमिक आधार मॉडल पर आधारित है, जिसे सरल लगातार पूर्व-प्रशिक्षण के माध्यम से डिफ्यूज़न परिप्रेक्ष्य में बिना किसी असुविधा के स्थानांतरित किया गया है। इस परिवर्तन प्रक्रिया में द्विदिश अवरोधन तकनीक और लेयर-विशिष्ट शिक्षा दर का उपयोग मौलिक ज्ञान को बरकरार रखने के लिए किया गया है, और 8M टोकन तक के बड़े बैच प्रशिक्षण का उपयोग स्थिरता सुनिश्चित करने के लिए किया गया है, अंततः 500B टोकन पर पूर्व-प्रशिक्षण पूरा कर लिया गया है। यह कुशल विधि शुरू से प्रशिक्षण के कारण संसाधन के बर्बादी को बचाती है और रेडिकल न्यूमेरिक्स के मॉडल फिर से उपयोग के नवाचार विचार को दर्शाती है।

पारंपरिक स्व-अनुक्रमिक भाषा मॉडल के तर्क के विपरीत, जो एक-एक करके टोकन उत्पन्न करता है, RND1 टेक्स्ट उत्पादन को छवि शोधन के समान एक प्रक्रिया के रूप में देखता है, जहाँ पूरे अनुक्रम को शोर से समानांतर रूप से शुद्ध किया जाता है और द्विदिश ध्यान तकनीक का समर्थन करता है। यह उत्पादन की लचीलापन और नियंत्रण में वृद्धि करता है और अनुमान देरी में महत्वपूर्ण कमी करता है, जो जटिल तर्क और कोड उत्पादन के कार्यों के लिए विशेष रूप से उपयुक्त है।

image.png

सामान्य बेंचमार्क परीक्षण में, RND1-Base ने मजबूत क्षमता दिखाई, जो Dream-7B और LLaDA-8B जैसे ओपन सोर्स डिफ्यूज़न भाषा मॉडल पूर्वजों को पार कर गया। विशिष्ट प्रदर्शन में MMLU बहुकार्य भाषा समझ 57.2%, GSM8K गणितीय तर्क 72.1% और MBPP कोड उत्पादन 51.3% शामिल हैं। ये सूचकांक तर्क, STEM और प्रोग्रामिंग क्षेत्रों को कवर करते हैं, जो इस मॉडल के स्व-अनुक्रमिक आधार के लाभ को बरकरार रखते हुए डिफ्यूज़न आर्किटेक्चर के प्रदर्शन में सुधार करने के बारे में साबित करते हैं।

RND1 के झरझर विशेषज्ञ मिश्रण डिज़ाइन में 30 बिलियन कुल पैरामीटर में केवल 3 बिलियन पैरामीटर सक्रिय होते हैं, जो गणना की दक्षता को अनुकूलित करता है, जो बड़े पैमाने पर डेप्लॉयमेंट के लिए उपयुक्त है। इस मॉडल के बाद के प्रशिक्षण नहीं किया गया है, तो ग्रीडी सैंपलिंग के समय अक्सर दोहराव हो सकता है, लेकिन ओपन सोर्स कोड में FlashInfer और SGLang बैकएंड शामिल है, जो तेज अनुमान अपडेट का समर्थन करता है।

रेडिकल न्यूमेरिक्स अपने आपको अगली पीढ़ी के AI प्रयोगशाला के रूप में स्थापित करता है, जो स्व-सुधार इंजन निर्माण में केंद्रित है। RND1 इस दृष्टिकोण का परिणाम है, जिसके माध्यम से स्वचालित AI अनुसंधान प्लेटफॉर्म के माध्यम से मॉडल अगली पीढ़ी के AI के अनुकूलन में भाग लेता है। इस टीम में DeepMind, Meta, Liquid और स्टैनफोर्ड जैसे उत्कृष्ट संस्थानों के अनुसंधानकर्ता और इंजीनियर शामिल हैं, जिनका लक्ष्य AI के खुद के डिज़ाइन के माध्यम से वैज्ञानिक और औद्योगिक खोज को तेज करना है।

ओपन सोर्स RND1 का उद्देश्य समुदाय को डिफ्यूज़न भाषा मॉडल के अनुमान अनुकूलन और बाद के प्रशिक्षण के संभावना की खोज करने के लिए प्रेरित करना है। वर्तमान में, डिफ्यूज़न मॉडल के भाषा क्षेत्र में अनुप्रयोग प्रयोगात्मक चरण से उपयोगी चरण में बदल रहा है, विशेष रूप से लंबे अनुक्रम उत्पादन कार्यों में समानांतर उत्पादन के माध्यम से लाभ प्रदर्शित कर रहा है। उद्योग में आशा है कि यह कदम अधिक से अधिक स्व-अनुक्रमिक मॉडल के डिफ्यूज़न मॉडल में परिवर्तन के प्रयोगों को उत्तेजित करेगा और ओपन सोर्स पारिस्थितिकी में कुशल उत्पादन मॉडल के लिए खाली जगह भरेगा।

हालांकि RND1 आकार और क्षमता में अग्रणी है, लेकिन डिफ्यूज़न मॉडल की जनरलाइज़ेशन क्षमता और मेमोरी खपत को आगे अनुकूलित करने की आवश्यकता है। भविष्य में बहुलक्ष्य समायोजन या मिश्रित आर्किटेक्चर के साथ संयोजन के माध्यम से, इसकी संभावनाओं को आगे तक खोला जा सकता है। रेडिकल न्यूमेरिक्स ने भर्ती खुली कर दी है, AI पेशेवरों के लिए इस अग्रणी खोज में शामिल होने के लिए आमंत्रित करता है।