एप्पल उपकरणों पर, आर्टिफिशियल इंटेलिजेंस (AI) तकनीक अद्भुत संभावनाएं दिखा रही है। गिमलेट लैब्स के नवीनतम अध्ययन के अनुसार, AI स्वयं ऑप्टिमाइज्ड मेटल कर्नल बना सकता है, जिससे PyTorch अनुमानन गति 87% बढ़ गई। यह एक महत्वपूर्ण उपलब्धि न केवल प्रदर्शन में सुधार करती है, बल्कि 215 PyTorch मॉड्यूल पर औसतन 1.87 गुना तक तेजी लाती है, कुछ कार्य भार के लिए गति सैकड़ों गुना बढ़ सकती है।
अनुसंधानकर्ता विभिन्न शीर्ष संस्थानों से आठ AI मॉडल चुने, जिनमें एंथ्रोपिक, डीपसीक और ओपनएआई शामिल हैं, जिनका उपयोग एप्पल उपकरणों के लिए ऑप्टिमाइज्ड GPU कर्नल बनाने के लिए किया गया। इस प्रक्रिया में उपयोगकर्ता कोड को संशोधित करने या नए फ्रेमवर्क का उपयोग करने की आवश्यकता नहीं होती है, बल्कि सीधे एप्पल हार्डवेयर पर मॉडल प्रदर्शन में सुधार किया जाता है।
परीक्षण में, अनुसंधान टीम ने Mac Studio (Apple M4Max चिप के साथ) का उपयोग किया गया। बेंचमार्क सेटिंग PyTorch के eager मोड के रूप में निर्धारित किया गया। परीक्षण में KernelBench डेटासेट में 215 PyTorch मॉड्यूल का उपयोग किया गया, जिन्हें तीन श्रेणियों में विभाजित किया गया था, जिसमें सरल मैट्रिक्स गुणन से लेकर पूर्ण मॉडल व्यवस्था शामिल थी।
परीक्षण प्रक्रिया में इनपुट और PyTorch कोड प्राप्त करना, Metal कर्नल बनाना और इसकी सहीता का मूल्यांकन करना शामिल था। डेटा दर्शाता है कि प्रयासों की संख्या बढ़ने के साथ, AI द्वारा बनाए गए कर्नल की सहीता धीरे-धीरे बढ़ती रही। उदाहरण के लिए, पांचवीं प्रयास पर, सही अमल के अनुपात 94% तक पहुंच गया। इसके अलावा, मॉडल ने कर्नल बनाने में अंतर-स्तरीय क्षमता दिखाई, हालांकि कुछ अनुमान बिना मॉडल भी कुशल कर्नल बना सकते हैं।
परीक्षण परिणामों से पता चलता है कि GPT-5 मॉडल कुछ कार्य में 4.65 गुना गति में सुधार कर सकता है। अधिक आश्चर्य की बात यह है कि o3 मॉडल कुछ मामलों में देरी को 9000 गुना कम कर सकता है। अध्ययन यह भी पाया गया कि एक ही मॉडल कुछ कार्य में हमेशा सबसे अच्छा प्रदर्शन नहीं करता है, बल्कि कई मॉडल के संयोजन से बेहतर कर्नल बनाए जा सकते हैं।
प्रदर्शन को आगे बढ़ाने के लिए, अनुसंधानकर्ता अतिरिक्त संदर्भ सूचना जैसे CUDA के कार्यान्वयन और gputrace के प्रदर्शन विश्लेषण डेटा के उपयोग का प्रयास करते हैं, जिसके परिणामस्वरूप प्रदर्शन तेजी में औसतन 1.87 गुना सुधार हुआ, जो सामान्य एजेंट के 1.31 गुना से तीन गुना अधिक है।
ध्यान दें, अनुसंधानकर्ता यह बताते हैं कि यह कार्य अंतिम प्रदर्शन सीमा को दिखाने के लिए नहीं है, बल्कि AI के कर्नल उत्पादन में संभावना की जांच करने के लिए है, ताकि विकासकर्ताओं के भार को कम करने में सहायता मिल सके। समग्र रूप से, यह अध्ययन AI तकनीक के हार्डवेयर अनुकूलन क्षेत्र में एक महत्वपूर्ण प्रगति को चिह्नित करता है।
github:https://github.com/ScalingIntelligence/KernelBench/
मुख्य बातें:
🌟 AI स्वयं मेटल कर्नल बनाता है, PyTorch अनुमानन गति 87% बढ़ाता है।
⚡️ 215 PyTorch मॉड्यूल पर औसतन 1.87 गुना तक तेजी लाता है, कुछ कार्य भार के लिए गति सैकड़ों गुना बढ़ सकती है।
🔍 अध्ययन आर्टिफिशियल इंटेलिजेंस के कर्नल उत्पादन में संभावना की जांच करता है, हार्डवेयर अनुकूलन में सहायता करता है।