13 अक्टूबर को, मंगो ग्रुप ने दुनिया के पहले उच्च-प्रदर्शन डिफ्यूज़न भाषा मॉडल रिज़निंग फ्रेमवर्क dInfer को ओपन सोर्स कर दिया।

मानक परीक्षण में, dInfer डिफ्यूज़न भाषा मॉडल के रिज़निंग गति को एनविडिया डिफ्यूज़न मॉडल फ्रेमवर्क Fast-dLLM की तुलना में 10.7 गुना बढ़ा दिया; मानव जनित उत्पादन कार्य HumanEval में, dInfer एक बैच रिज़निंग में 1011 Tokens/सेकंड की गति बनाई, जो डिफ्यूज़न भाषा मॉडल के एक बैच रिज़निंग गति के लिए खुले संसाधन समुदाय में पहली बार है जो स्व-पुनर्गामी मॉडल के आउटपुट से बहुत ऊपर है। dInfer के कार्य दर्शाते हैं कि डिफ्यूज़न भाषा मॉडल के पास बहुत बड़ी दक्षता के संभावना है, जिसे सिस्टम के नवाचार इंजीनियरिंग द्वारा लागू किया जा सकता है, AGI के लिए एक प्रतिस्पर्धी विकल्प प्रदान करता है।

डिफ्यूज़न भाषा मॉडल, एक नई परंपरा के रूप में, टेक्स्ट जनरेशन को "यादृच्छिक शोर से धीरे-धीरे पूर्ण अनुक्रम के बराबर बर्बाद हो जाने" के एक डिनॉइज़िंग प्रक्रिया के रूप में देखता है, जिसके तीन मुख्य लाभ हैं: उच्च समानांतरता, व्यापक दृष्टि और संरचना लचीलापन। इन लाभों के कारण, मंगो ग्रुप और रेनमिन विश्वविद्यालय द्वारा जारी LLaDA-MoE के जैसे मॉडल विभिन्न मानक परीक्षण में शीर्ष AR मॉडल के बराबर सटीकता के साथ दिखाए गए हैं। हालांकि, रिज़निंग दक्षता में, dLLM के एक तरह से शक्तिशाली संभावना के बावजूद, लंबे समय तक कठोर वास्तविकता "कैद" के बाहर रहे हैं। dLLM की उच्च दक्षता रिज़निंग के लिए गणना लागत, KV कैश असफलता और समानांतर डिकोडिंग तीन चुनौतियां हैं। इन बाधाओं के कारण, डिफ्यूज़न भाषा मॉडल के रिज़निंग गति हमेशा खुश नहीं रही है, और डिफ्यूज़न भाषा मॉडल के रिज़निंग दक्षता के संभावना को मुक्त करने के लिए कैद तोड़ना, पूरे क्षेत्र में एक अत्यंत आवश्यक समस्या बन गई है।

dInfer एक उच्च-प्रदर्शन रिज़निंग फ्रेमवर्क है जो डिफ्यूज़न भाषा मॉडल के लिए डिज़ाइन किया गया है, जो एल्गोरिथ्म और सिस्टम के गहरे सहयोग के साथ है, जो विभिन्न डिफ्यूज़न भाषा मॉडल, जैसे LLaDA, LLaDA-MoE, LLaDA-MoE-TD आदि का समर्थन कर सकता है।

dInfer में चार मुख्य मॉड्यूल हैं: मॉडल (Model), KV कैश प्रबंधक (KV-Cache Manager), डिफ्यूज़न इटरेशन प्रबंधक (Iteration Manager) और डिकोडिंग रणनीति (Decoder)। इस विस्तार योग्य व्यवस्था के साथ, विकासकर्ता लेगो जैसे एक दूसरे के साथ जुड़ सकते हैं, अलग-अलग मॉड्यूल की अनुकूलन रणनीति के संयोजन और खोज कर सकते हैं, और एक एकीकृत प्लेटफॉर्म पर मानकीकृत मूल्यांकन कर सकते हैं। अधिक महत्वपूर्ण बात यह है कि, dInfer उपरोक्त तीन चुनौतियों के लिए प्रत्येक मॉड्यूल में विशिष्ट समाधान शामिल करता है।

image.png

(चित्र वर्णन: dInfer का विन्यास)

8 एनविडिया H800 GPU के साथ नोड पर, dInfer के प्रदर्शन दिलचस्प है:

पूर्व में उपलब्ध dLLM रिज़निंग समाधान Fast-dLLM के साथ तुलना में, dInfer मॉडल प्रभाव में बराबर है, लेकिन औसत रिज़निंग गति (avg TPS) में 10.7 गुना बड़ा वृद्धि हुई (681 vs 63.6); मानव जनित उत्पादन कार्य HumanEval में, dInfer एक बैच रिज़निंग में 1011 tokens/सेकंड की गति बनाई; जबकि विश्व के शीर्ष रिज़निंग सेवा फ्रेमवर्क vLLM पर चल रहे, बराबर पैरामीटर और प्रदर्शन वाले AR मॉडल Qwen2.5-3B के साथ तुलना में, dInfer की औसत रिज़निंग गति उसके 2.5 गुना है (681 vs 277)।

मंगो ग्रुप ने बताया कि, dInfer अग्रणी अनुसंधान और उद्योग लॉन्च के बीच एक जुड़ाव बनाता है, जो डिफ्यूज़न भाषा मॉडल के "सैद्धांतिक संभावना" से "अभियांत्रिकी दक्षता" तक के महत्वपूर्ण चरण को चिह्नित करता है। इस ओपन सोर्स के लिए यह एक आमंत्रण है, जो विश्व के विकासकर्ता और अनुसंधानकर्ता के साथ डिफ्यूज़न भाषा मॉडल के बड़े संभावना की खोज करने के लिए आमंत्रित करता है, और एक अधिक दक्ष, खुला AI नया परिवेश बनाता है।