मशीन लर्निंग कंपनी डीपसीक के अनुसंधान टीम ने सोमवार को घोषणा की कि वे "एस्पेशियल एटेंशन" मैकेनिज्म के माध्यम से लंबे संदर्भ पर काम करने के लिए बहुत कम खर्च पर अपने नए प्रयोगात्मक मॉडल, V3.2-exp को जारी कर दिया है। इस अहम उपलब्धि को हगिंग फेस और गिटहब पर एक साथ जारी किया गया था और इसके साथ विस्तृत अकादमिक पेपर भी शामिल था।

DeepSeek

इस मॉडल का केंद्रीय आधार अद्वितीय डीपसीक स्पार्स एटेंशन मैकेनिज्म है। यह जटिल प्रणाली दो हिस्सों से मिलकर बना है: पहले, "लाइटनिंग इंडेक्सर" नामक एक मॉड्यूल द्वारा संदर्भ खिड़की में विशिष्ट टुकड़ों को प्राथमिकता दिया जाता है; दूसरे, "फाइन-ग्रेन टोकन चयन प्रणाली" द्वारा इन प्राथमिकता वाले टुकड़ों में से महत्वपूर्ण टोकन का चयन किया जाता है और इन्हें सीमित एटेंशन खिड़की में लोड किया जाता है। इन मैकेनिज्म के संयोजन से स्पार्स एटेंशन मॉडल लंबे संदर्भ टुकड़ों को कम सर्वर भार के साथ अधिक कुशलता से संसाधित कर सकता है।

प्रारंभिक परीक्षण में, नए मॉडल ने बहुत लाभ दिखाया। डीपसीक के अनुसार, लंबे संदर्भ पर काम करते समय, सरल API कॉल लागत में आधा कमी हो सकती है। हालाँकि, इन निष्कर्षों की पुष्टि के लिए अधिक तृतीय-पक्ष परीक्षण की आवश्यकता है, लेकिन चूंकि इस मॉडल के भार खुले हैं और हगिंग फेस पर मुफ्त उपलब्ध हैं, इसकी वास्तविक क्षमता जल्द ही उद्योग द्वारा पुष्टि कर दी जाएगी।

QQ20250930-085622.png

डीपसीक का यह अपनान अभी हाल के में एआई अनुमान लगाने के खर्च के समाधान के लिए की गई उत्कृष्ट उपलब्धियों में से एक है। अनुमान लगाने के खर्च का अर्थ है एक प्रशिक्षित एआई मॉडल चलाने के लिए सर्वर लागत, न कि प्रशिक्षण लागत। R1 मॉडल के विपरीत जो प्रशिक्षण लागत कम करने पर केंद्रित है, इस नए मॉडल का ध्यान बेसिक ट्रांसफॉर्मर संरचना के चलाने की दक्षता में सुधार पर है, जो एआई एप्लिकेशन के व्यापक उपयोग के लिए एक अधिक आर्थिक समाधान प्रदान करता है।

डीपसीक इस वर्ष के एआई उत्साह में ध्यान केंद्रित रहा है। उनके पहले जारी किए गए R1 मॉडल ने निम्न लागत वाले सीखने के तरीकों के साथ ध्यान आकर्षित किया था, लेकिन इस बार के स्पार्स एटेंशन तकनीक अपने R1 के जैसे झंकार नहीं दे सकती है, लेकिन यह विश्व एआई प्रदाताओं के लिए महत्वपूर्ण अनुभव प्रदान करता है, जो एआई सेवाओं के ऑपरेशनल खर्च कम करने में मदद करता है।