1. हाल ही में, तकनीकी विशालपिण्ड NVIDIA ने MIT (मैसाचुसेट्स साइंस एंड टेक्नोलॉजी इंस्टीट्यूट) और हांगकांग विश्वविद्यालय के साथ साझेदारी करके "Fast-dLLM" नामक एक नया फ़्रेमवर्क प्रकाशित किया है। इस नवाचारी फ़्रेमवर्क का उद्देश्य फ़ैनर आधारित भाषा प्रणालियों (Diffusion-based LLMs) की अनुमान लगाने (Reasoning) की गति को सुधारना है, जिससे अधिकतम 27.6 गुना की वृद्धि हुई है, जिससे AI के अनेक अनुप्रयोगों के लिए बल्कि शक्तिशाली तकनीकी समर्थन मिला है।
  2. फ़ैनर आधारित प्रणालियों के चुनौतियाँ और अवसर
  3. फ़ैनर आधारित प्रणालियां पारंपरिक ऑटोरेग्रेसिव प्रणालियों (Autoregressive Models) के दृढ़ प्रतिद्वंद्वी हैं। यह द्विपक्षीय ध्यान मैकेनिज्म (Bidirectional Attention Mechanism) का उपयोग करती है, जो सिद्धांत द्वारा कई शब्दांशों (Multi-tokens) को समान्य समय में उत्पन्न करने की क्षमता रखती है, जिससे डिकोडिंग प्रक्रिया को तेज किया जा सकता है। हालांकि, वास्तविक उपयोग में, फ़ैनर आधारित प्रणालियों की अनुमान लगाने की गति ऑटोरेग्रेसिव प्रणालियों की तुलना में कम होती है, जिसका मुख्य कारण है प्रत्येक उत्पादन कदम (Generation Steps) के लिए पूर्ण ध्यान की स्थितियों की पुनरावृत्ति की आवश्यकता होने से जिससे कि कम्प्यूटेशनल लागत बहुत अधिक हो जाती है। इसके अलावा, बहुतायत से शब्दांशों के समानांतर डिकोडिंग (Parallel Decoding) के दौरान, शब्दांशों के बीच के आश्रित कार्य को नष्ट होने की संभावना होती है, जिससे उत्पादन की गुणवत्ता प्रभावित हो जाती है।
  4. image.png
  5. Fast-dLLM फ़्रेमवर्क के नवाचार
  6. उपरोक्त समस्याओं को हल करने के लिए, NVIDIA टीम ने Fast-dLLM फ़्रेमवर्क विकसित किया है, जिसमें दो महत्वपूर्ण नवाचार शामिल हैं: खंडित समानांतर KV कैश मैकेनिज्म और आत्मविश्वास आधारित समानांतर डिकोडिंग स्ट्रेटेजी।
  7. 1. ** खंडित समानांतर KV कैश मैकेनिज्म **: इस मैकेनिज्म ने अनुक्रम को बहुत से खंडों (Blocks) में विभाजित किया और प्रत्येक खंड के उद्घाटन करणीय मूल्यों (KV Activations) की पूर्वगणना और संग्रहीत की है, जिससे बाद में डिकोडिंग के समय उन्हें पुनः उपयोग किया जा सकता है। इस प्रकार की प्रक्रिया ने कम्प्यूटेशनल बर्बादी को काफी कम किया और दक्षता में सुधार पहुंचाया। इसके द्वितीयक कैश वर्जन (DualCache Version) ने पूर्व और पश्चात्कालीन शब्दांशों (Prefix and Suffix Tokens) को कैश किया, जिससे निकट के डिकोडिंग चरणों की उच्च समानता का लाभ उठाया गया।
  8. 2. ** आत्मविश्वास आधारित समानांतर डिकोडिंग स्ट्रेटेजी **: यह स्ट्रेटेजी एक निर्धारित आत्मविश्वास बाबद (Confidence Threshold) के आधार पर, उच्च आत्मविश्वास वाले शब्दांशों को चयनित करके उन्हें डिकोड करती है, जिससे सामान्य समानांतर प्रमाणन (Parallel Sampling) के कारण होने वाले आश्रित कार्य अन्तर्निहित कार्यों को नष्ट करने की संभावना को कम करती है, जिससे उत्पादन की गुणवत्ता सुरक्षित रहती है।
  9. image.png
  10. अद्वितीय प्रदर्शन
  11. Fast-dLLM विभिन्न मानक परीक्षणों में बेहतरीन प्रदर्शन करता है। GSM8K डेटासेट पर, 1024 शब्दांशों के लिए 8-shot के सेटअप में, इसने 27.6 गुना की गति वृद्धि प्राप्त की, और सटीकता 76.0% पर पहुंच गई। MATH मैं, इसने 6.5 गुना की गति वृद्धि की, सटीकता करीब 39.3% पर रही। HumanEval और MBPP परीक्षणों में, इसने क्रमशः 3.2 गुना और 7.8 गुना की गति वृद्धि की, सटीकता क्रमशः 54.3% और बेसलाइन स्तर पर रही। सामान्य रूप से, Fast-dLLM ने गति में वृद्धि के साथ, सटीकता को केवल 1-2 प्रतिशत तक कम किया है, जो गति और गुणवत्ता के बीच एक संतुलन प्रदान करता है।
  12. अनुमान लगाने की क्षमता और डिकोडिंग की गुणवत्ता के समस्याओं को हल करने के माध्यम से, Fast-dLLM ने फ़ैनर आधारित प्रणालियों को वास्तविक भाषा उत्पादन कार्यों में ऑटोरेग्रेसिव प्रणालियों के साथ प्रतिस्पर्धा करने की क्षमता प्रदान की है, जिससे भविष्य में बहुत अधिक अनुप्रयोगों के लिए नींव रखी जा सकती है। इस तकनीक के प्रसार के साथ, हमें AI के अधिक अनेक क्षेत्रों में वास्तविक अनुप्रयोग देखने की उम्मीद है।
  13. परियोजना: https://nvlabs.github.io/Fast-dLLM/