हाल ही में, गूगल के DeepMind टीम ने जोहान केप्लर लिंज़्स विश्वविद्यालय के LIT AI प्रयोगशाला के साथ सहयोग किया है, इसका उद्देश्य एक नई अनुसंधान परियोजना शुरू करना है जो कृत्रिम बुद्धि के भाषा मॉडलों पर केंद्रित है। उन्होंने मजबूती सीखने (RLFT) की प्रौद्योगिकी का उपयोग किया है, जिसका उद्देश्य भाषा मॉडलों की निर्णय शक्ति को बढ़ाना है। इस अनुसंधान का केंद्रित बिंदु है, चिंतन-श्रृंखला के मजबूत अभ्यास के माध्यम से निर्णय लेने के प्रक्रिया में उपस्थित कुछ महत्वपूर्ण समस्याओं को हल करना।
बड़े डेटा के उपयोग से, वर्तमान भाषा मॉडलों ने पाठ का प्रबंधन करने के लिए सुपरिचित क्षमता प्रदर्शित की है, और जटिल इंटरैक्टिव परिस्थितियों में ज्ञान-आधारित निर्णय लेने में सक्षम हैं। हालांकि, ये मॉडल वास्तविक जीवन में निर्णय लेते समय अक्सर "कागज पर विचार" की समस्या का सामना करते हैं, यहाँ ये सही रणनीतियाँ बना सकते हैं लेकिन उन्हें व्यावहारिक रूप से लागू नहीं कर पाते हैं। इसके अलावा, ये मॉडल छोटे अंतराल के लिए बड़ा प्रदान करने वाले विकल्पों को पसंद करने के तौर पर झुके हुए हैं, और छोटे मॉडल अक्सर उच्चतम बार-फ्रीक्वेंसी बाइसास द्वारा परिचित क्रियाओं को बार-बार करने के लिए प्रेरित होते हैं।
पारंपरिक मजबूती सीखने की विधियाँ, जैसे UCB एल्गोरिदम, खोज और उपयोग के संतुलन को कुछ हद तक संतुलित कर सकती हैं, लेकिन यह मॉडल के तर्क और क्रिया के बीच के विसंगति समस्याओं को पूरी तरह से हल नहीं कर सकती। इसलिए, DeepMind टीम ने नवाचारीय रूप से मजबूती सीखने में फाइनट्यूनिंग तकनीक को लागू किया, जिसका उपयोग मॉडल द्वारा आत्म-स्वरूपित चिंतन-श्रृंखलाओं को प्रशिक्षण संकेत के रूप में करता है। इस प्रणाली में, प्रत्येक तर्क कदम के संबंधित क्रिया के पुरस्कार का मूल्यांकन किया जाता है, जो उसे विशिष्ट और प्रभावी क्रियाएं करने पर प्रेरित करता है।
अपने वास्तविक लागू होने के प्रक्रिया में, मॉडल इनपुट निर्देशों और ऐतिहासिक क्रियाओं और पुरस्कारों से एक क्रम बनाता है जिसमें तर्कप्रक्रिया और क्रियाएं शामिल हैं। मॉन्टे कार्लो बेसलाइन मूल्यांकन और व्यापक वांछनीयता अनुमान द्वारा इसका अनुशासन किया जाता है। यदि कोई अक्षम क्रिया लागू की जाती है, तो दंड यंत्रण की सुविधा कार्य करती है। इसके साथ ही, पुरस्कार निर्माण के प्रवेश से निर्दिष्ट प्रदर्शन की जांच की जाती है और खोज के अंतर्गत रहने की सुविधा बनाए रखी जाती है।
प्रयोगों में, अनुसंधान टीम ने कई पांच टेस्बर मॉडल का परीक्षण किया। 10 टेस्बर के परीक्षण में, 2B पैरामीटर वाला मॉडल का क्रियात्मक कवरेज 12 प्रतिशत बढ़ गया। 20 टेस्बर के परीक्षण में, सुधार का परिमाण थोड़ा कम रहा, लेकिन बार-फ्रीक्वेंसी बाइसास दर 70% से 35% घट गई, जो अनुसंधान की प्रभावशीलता को साबित करती है। तिक्त खेल परीक्षणों के परिणामों से पता चलता है कि मॉडल के सामने यादृच्छिक विरोधी के साथ खेलने पर जीत की संभावना 5 गुना बढ़ गई, और सर्वश्रेष्ठ मॉन्टे कार्लो ट्री सर्च प्रैक्टिसर के साथ खेलने पर औसत पुरस्कार -0.95 से शून्य हो गया। इसके अलावा, 27B बड़े मॉडल ने सही तर्क उत्पन्न करने की संभावना 87% तक पहुंचाई, जबकि यह न फाइनट्यून किए गए मॉडल में केवल 21% बेहतरीन क्रिया कर पाए थे। इन सभी डेटा ने मजबूती सीखने में फाइनट्यूनिंग की विस्तृत कार्यक्षमता साबित करती है।
मुख्य बिंदु यहाँ है:
📊 अनुसंधान ने मजबूती सीखने में फाइनट्यूनिंग (RLFT) तकनीक का उपयोग किया है ताकि कृत्रिम बुद्धि भाषा मॉडलों की निर्णय शक्ति में सुधार किया जा सके।
🧩 आत्म-स्वरूपित चिंतन-श्रृंखलाओं के माध्यम से प्रशिक्षण किया गया है, जो मॉडल के तर्क और क्रिया चयन को मजबूत करता है।
🏆 प्रयोगों में, मॉडल ने कई पांच टेस्बर और तिक्त खेल में उल्लेखनीय सुधार किया है, जो तर्क और अनिवार्य क्रिया के बीच की दूरी को कम किया है।
गूगल डीपमाइंड ने मजबूती सीखने के माध्यम से AI की निर्णय-गति को सुधारा

AIbase基地
यह लेख AIbase दैनिक से है
【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।