हाल ही में तकनीकी प्रगतियों के बारे में, नव्दिया ने मैसाचुसेट्स साइंस विश्वविद्यालय (MIT) और हांगकांग विश्वविद्यालय के साथ साझेदारी करके नामित फ़्रेमवर्क Fast-dLLM को जारी किया है, जो डिफ्यूज़न मॉडल (Diffusion-based LLMs) की अनुमान गति को अधिकतम 27.6 गुना बढ़ाता है। यह नवीनतापूर्ण परिणाम भाषा मॉडल के उपयोग के लिए नई दिशाएं खोलता है।
डिफ्यूज़न मॉडल को आत्मनिर्भर मॉडल के प्रबल प्रतिद्वंद्वी माना जाता है, जो दोनों ओर की ध्यानाधीनता व्यवस्था का उपयोग करता है, जिससे यह सिद्धांत में कई शब्दों को एक साथ उत्पन्न करने की क्षमता होती है, जिससे डिकोडिंग की गति में सुधार होता है। हालाँकि, वास्तविक जीवन में, डिफ्यूज़न मॉडल आत्मनिर्भर मॉडल के साथ अपेक्षित गति के बराबर नहीं हो पाता, क्योंकि प्रत्येक उत्पादन में सभी ध्यानाधीनता अवस्थाओं को फिर से गणना करना पड़ता है, जिससे गणना लागत बढ़ जाती है। इसके अलावा, कई शब्दों की डिकोडिंग के दौरान, शब्दों के बीच की आश्रितता को तोड़ दिया जाता है, जिससे उत्पादन गुणवत्ता में कमी आती है, जिससे इसका वास्तविक उपयोग में प्रतिबंधित हो जाता है।
इन सीमाओं को पार करने के लिए, नव्दिया के शोध टीम ने Fast-dLLM फ़्रेमवर्क में दो मुख्य नवाचारों को शामिल किया: ब्लॉक एप्रोक्सिमेशन KV कैश मैकेनिज्म और कॉन्फ़िडेंस एवेंट्स पैरलेल डिकोडिंग स्ट्रैटेजी। KV कैश के माध्यम से, क्रम को ब्लॉक में विभाजित किया जाता है, जिससे अन्य ब्लॉक के जीवन कार्यों की पूर्वगणना और संचय की जाती है, जिससे कमजोरी को कम करने का प्रयास किया जाता है; और इसका DualCache व्याख्या आगे बढ़ती कुशलता से बेहतर तरीके से पूर्व-प्रेरणा शब्दों का कैश करता है।
इसके अलावा, कॉन्फ़िडेंस डिकोडिंग स्ट्रैटेजी के अनुसार, एक निर्धारित सीमा के आधार पर, उच्च कॉन्फ़िडेंस शब्दों को चयनित किया जाता है, जिससे समयानुसार प्राप्त किए जाने वाले आश्रितता संघर्ष को बचा लिया जाता है, जिससे उत्पादन गुणवत्ता को प्रभावित नहीं किया जाता है।
Fast-dLLM कई बेंचमार्क परीक्षणों में अच्छा प्रदर्शन करता है। GSM8K डेटासेट पर, इस फ़्रेमवर्क ने 1024 शब्दों के उत्पादन के दौरान, 8-shot कन्फ़िगरेशन में असाधारण 27.6 गुना तेजी दर्ज की और 76.0% सटीकता प्राप्त की; MATH बेंचमार्क परीक्षण में, इसका तेजी गुना 6.5 था, सटीकता करीब 39.3% थी; और HumanEval और MBPP परीक्षणों में, यह क्रमशः 3.2 गुना और 7.8 गुना तेजी दर्ज की, सटीकता 54.3% और बेसलाइन के पास रही।
Fast-dLLM तेजी से अधिकतम 1-2 प्रतिशत के बाद में सटीकता गिरावट दर्ज करता है, जो इसके बीच में गति और गुणवत्ता के बीच सुंदर संतुलन को दर्शाता है। यह शोध परिणाम डिफ्यूज़न मॉडल के वास्तविक भाषा उत्पादन कार्यों में उपयोग करने के लिए बेहतर समर्थन प्रदान करता है, जिससे इसकी क्षमता आत्मनिर्भर मॉडल के साथ प्रतिस्पर्धा करने की होती है, और इस प्रकार भविष्य में व्यापक उपयोग के लिए ठोस आधार प्रदान करता है।
एनवीडिया, मैसाचुसेट्स इंस्टीट्यूट ऑफ टेक्नोलॉजी (एमआईटी) और हांगकांग विश्वविद्यालय ने एक साथ Fast-dLLM फ़्रेमवर्क लॉन्च किया, निष्कर्षन की गति में अद्वितीय सुधार

AIbase基地
यह लेख AIbase दैनिक से है
【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।