हाल ही में, नैनशन यूनिवर्सिटी के झू झिहुआ ग्रुप द्वारा एक महत्वपूर्ण अध्ययन प्रस्तुत किया गया। इस अध्ययन में बड़े भाषा मॉडल में आंतरिक पुरस्कार मॉडल के अस्तित्व को सिद्ध किया गया है और इसका उपयोग बल्कि बेहतर प्रदर्शन के लिए पुनर्बलन (RL) के साथ किया गया है।
वर्तमान में, बहुत सारे जॉइंट मेथड इंसानी फीडबैक के साथ पुनर्बलन (RLHF) पर निर्भर करते हैं। इस तरह के एक तरीका बुराई प्रतिक्रिया के बहुत बड़े डेटा सेट की आवश्यकता होती है। हालांकि, ऐसा डेटा सेट बनाना लंबा और कठिन होता है और इसके लिए बहुत अधिक खर्च होता है। इसलिए, अनुसंधानकर्ता अन्य विकल्पों की खोज में लगे हुए हैं, जिसमें AI फीडबैक के साथ पुनर्बलन (RLAIF) का ध्यान रखा गया है। इस तरह के तरीका मजबूत बड़े भाषा मॉडल द्वारा खुद बनाए गए पुरस्कार संकेतों का उपयोग करता है, जिससे इंसानी टैगिंग पर निर्भरता कम हो जाती है।
चित्र स्रोत टिप्पणी: चित्र AI द्वारा बनाया गया है, चित्र के लाइसेंस प्रदाता Midjourney
अनुसंधान टीम की खोज उत्साहवर्धक है: मानक अगले टोकन पूर्वानुमान प्रशिक्षण में, एक मजबूत सामान्य पुरस्कार मॉडल वास्तव में प्रत्येक बड़े भाषा मॉडल में छिपा हुआ है। टीम द्वारा प्रस्तावित "आंतरिक पुरस्कार" की अवधारणा इस बात का संकेत है कि हम इन मॉडलों से एक प्रभावी पुरस्कार तंत्र निकाल सकते हैं, बिना बाहरी मूल्यांकन स्रोत पर निर्भर किए। इस सिद्धांत ने पुरस्कार मॉडल बनाने के लिए नई दृष्टि प्रदान की है और यह भी दिखाया है कि मॉडल के आंतरिक पुरस्कार का उपयोग करके कैसे इसके सुधार किया जा सकता है, जिससे मॉडल के प्रदर्शन में गंभीर वृद्धि हो सकती है।
अध्ययन के परिणाम दर्शाते हैं कि आंतरिक पुरस्कार के साथ सुधार वर्तमान मूल बेंचमार्क मॉडल के त्रुटि सीमा में अधिक अच्छा हो सकता है, विशेष रूप से जटिल कार्यों में बेहतर प्रदर्शन करता है। टीम ने व्यापक परीक्षण किया, जिसके परिणाम दर्शाते हैं कि यह नई विधि वर्तमान पुरस्कार मॉडल से बेहतर है और विभिन्न परीक्षणों में अच्छा प्रदर्शन करता है।
इस अध्ययन के जारी करने से बड़े भाषा मॉडल विकास और अनुप्रयोग के भविष्य के लिए नए रास्ते खोल दिए गए हैं। अनुसंधानकर्ता आशा करते हैं कि इस आंतरिक पुरस्कार तंत्र का उपयोग करने की रणनीति, विकास लागत कम कर सकती है, दक्षता में सुधार कर सकती है और कृत्रिम बुद्धिमत्ता के अधिक व्यापक उपयोग को बढ़ावा दे सकती है।