माइक्रोसॉफ्ट रिसर्च ने एजेंट लाइटनिंग नामक एक नया मजबूती सीखने के प्रशिक्षण ढांचा लॉन्च किया है, जो वर्तमान AI एजेंट प्रणालियों के प्रशिक्षण के दौरान सामना किए जाने वाले सामान्यता और लचीलापन के चुनौतियों को हल करने के लिए डिज़ाइन किया गया है। इस ढांचे के अपने अभिनव अलग-अलग डिज़ाइन के माध्यम से, अलग-अलग आर्किटेक्चर वाले AI एजेंट के लिए एकीकृत मजबूती सीखने के प्रशिक्षण की संभावना है।

वर्तमान AI बड़े भाषा मॉडल लेखन, सामग्री रचना आदि कार्यों में अच्छा प्रदर्शन करते हैं, लेकिन जटिल बहु-चरण संवाद, विशेष क्षेत्र के डेटा प्रसंस्करण या अज्ञात उपकरण के उपयोग के मामले में अपनी सीमाओं को दिखाते हैं। इन मॉडलों को वास्तविक वातावरण में सतत रूप से सीखने और सुधार करने के लिए कैसे बनाया जाए, यह AI अनुसंधान के क्षेत्र में एक महत्वपूर्ण विषय बन गया है।

पारंपरिक संवेदनशील अधिकार पद्धति के लिए बड़ी मात्रा में टैग किए गए डेटा की आवश्यकता होती है, जो जटिल अंतरक्रियात्मक कार्यों के लिए लागत में वृद्धि और समय लेने वाला होता है। मजबूती सीखने के रूप में विकल्प, एआई प्रणाली को अपने त्रुटियों से सीखने के लिए पुरस्कार और दंड योजना के माध्यम से उपयुक्त है, जो वास्तविक वातावरण फीडबैक के माध्यम से बड़े मॉडल के अनुकूलन के लिए अधिक उपयुक्त है।

image.png

पेपर का पता: https://arxiv.org/pdf/2508.03680

हालांकि, वर्तमान मजबूती सीखने के ढांचे मुख्य रूप से एकल कार्य के लिए डिज़ाइन किए गए हैं, जो AI एजेंट के बहु-चरण संवाद, बाहरी उपकरण का उपयोग करना, जटिल कार्य धारा के निष्पादन की आवश्यकता के कारण अनुकूलित नहीं हो सकते हैं। अलग-अलग AI एजेंट की आर्किटेक्चर अंतर भी सामान्यीकृत प्रशिक्षण को कठिन बना देते हैं।

एजेंट लाइटनिंग का मुख्य नवाचार एजेंट के निष्पादन प्रक्रिया को मजबूती सीखने के प्रशिक्षण प्रक्रिया से पूरी तरह अलग करने के विचार के उपयोग में है। इस ढांचे में AI एजेंट के निष्पादन प्रक्रिया को मार्कोव निर्णय प्रक्रिया (MDP) के रूप में अबस्ट्रैक्ट किया गया है, जो एजेंट व्यवहार के वर्णन के लिए राज्य, क्रिया और पुरस्कार के चक्र के माध्यम से किया जाता है।

इस डिज़ाइन में, राज्य AI एजेंट के विशिष्ट समय बिंदु पर चल रही स्थिति का प्रतिनिधित्व करता है, क्रिया बड़े भाषा मॉडल के टेक्स्ट आउटपुट के साथ संबंधित होती है, और पुरस्कार क्रिया के प्रभाव का अंकन होता है। इस अबस्ट्रैक्शन के माध्यम से, कोई भी ढांचा (LangChain, OpenAI Agents SDK, AutoGen आदि) के आधार पर AI एजेंट के निष्पादन प्रक्रिया को एकीकृत डेटा इंटरफेस फॉर्मेट में परिवर्तित किया जा सकता है।

image.png

प्रशिक्षण प्रभाव को अधिकतम करने के लिए, एजेंट लाइटनिंग के साथ लाइटनिंगRL हाइरार्किकल मजबूती सीखने के एल्गोरिथ्म विकसित किया गया है। इस एल्गोरिथ्म के माध्यम से, कार्य के समग्र पुरस्कार को ट्रैक के प्रत्येक क्रिया चरण में उचित रूप से विभाजित किया जा सकता है, जिससे बड़े मॉडल को प्रत्येक कार्य के प्रभाव के बारे में स्पष्ट रूप से समझ में आता है, जिससे अधिक कुशल सीखना संभव हो जाता है।

सिस्टम आर्किटेक्चर के मामले में, एजेंट लाइटनिंग "प्रशिक्षण-एजेंट अलगाव" डिज़ाइन का उपयोग करता है, जिसमें एजेंट लाइटनिंग सर्वर और एजेंट लाइटनिंग क्लाइंट दो मुख्य घटक शामिल हैं। सर्वर को मजबूती सीखने के प्रशिक्षण प्रक्रिया और मॉडल पैरामीटर अनुकूलन के प्रबंधन के लिए जिम्मेदार रखा गया है, जबकि क्लाइंट एजेंट के चलाने, डेटा के एकत्रीकरण और सर्वर से संचार के लिए जिम्मेदार रहता है। इस प्रकार के आर्किटेक्चर डिज़ाइन ने प्रशिक्षण प्रक्रिया और एजेंट चलाने के पूर्ण अलगाव को संभव बना दिया है।

image.png

वास्तविक परीक्षण में, एजेंट लाइटनिंग कई स्थितियों में अच्छा प्रदर्शन दिखाया। टेक्स्ट से SQL में अनुवाद कार्य में, LangChain के आधार पर बने बहु-एजेंट प्रणाली ने सतत और स्थिर प्रदर्शन में सुधार किया। RAG (रिट्रीवल एनहांस्ड जनरेशन) कार्य में, OpenAI Agents SDK के आधार पर एजेंट जटिल खुले प्रश्नों में सतत सुधार दिखाया। गणितीय प्रश्नोत्तर में, AutoGen के आधार पर गणितीय एजेंट ने कैलकुलेटर उपकरण के उपयोग के लिए प्रभावी रूप से सीख लिया और ठीक से गणना की।

एजेंट लाइटनिंग के उत्पादन ने AI एजेंट प्रशिक्षण के क्षेत्र में नई तकनीकी पथ प्रदान किया है। इसकी सामान्यता डिज़ाइन के कारण, कोई भी आर्किटेक्चर वाले AI एजेंट को कोड बदले बिना प्रशिक्षण स्वीकार कर सकते हैं। लचीला आर्किटेक्चर बहु-एजेंट सहयोग, डायनामिक प्रक्रिया और जटिल उपकरण कॉल आदि के विभिन्न अनुप्रयोग स्थितियों का समर्थन करता है। वितरित डिज़ाइन बड़े पैमाने पर प्रशिक्षण के लिए विस्तार लाभ प्रदान करता है।

तकनीकी विकास के दृष्टिकोण से, एजेंट लाइटनिंग AI एजेंट प्रशिक्षण तकनीक के मानकीकरण और मॉड्यूलर दिशा में महत्वपूर्ण प्रगति का प्रतिनिधित्व करता है। अलगाव डिज़ाइन के विचार के माध्यम से, यह ढांचा AI एजेंट प्रशिक्षण अक्षय द्वारा आगे विस्तार करने में सक्षम होने की संभावना रखता है, जो अधिक बुद्धिमान और अनुकूलित AI प्रणाली बनाने के लिए आधार तैयार कर सकता है।