Self-Refine विधि एक बड़े भाषा मॉडल (LLM) के आउटपुट की गुणवत्ता को स्वचालित प्रतिक्रिया और स्वचालित परिवर्तन द्वारा सुधारने के कारण फिर से AI अनुसंधान में चर्चा का केंद्र बन गई है (https://arxiv.org/abs/2303.17651)। इस नवाचारशील फ़्रेमवर्क के तहत, एकल LLM अपने आउटपुट को उत्पादन, प्रतिक्रिया, और अनुकूलन के चक्र के माध्यम से स्वयं अपने आउटपुट को सुधार सकता है, अतिरिक्त प्रशिक्षण या बाहरी उपकरणों की आवश्यकता के बिना लगभग 20% की प्रदर्शन सुधार हासिल कर सकता है। AIbase ने पाया है कि Self-Refine GPT-4 सहित उन्नत मॉडलों पर भी प्रभावी है, जिससे डेवलपर्स और अनुसंधानकर्ताओं के बीच व्यापक चर्चा हुई है।

image.png

केंद्रीय यंत्र: तीन चरणों का चक्र आत्म-अनुकूलन प्राप्त करता है

Self-Refine का मुख्य केंद्र एक स्व-परिपथिक प्रेरणा तकनीक है, जो एकल LLM को तीन भूमिकाओं में विभाजित करके आउटपुट को सुधारती है:

प्रारंभिक जवाब पैदा करें: मॉडल इनपुट प्रेरणा के अनुसार प्रारंभिक आउटपुट उत्पन्न करता है।

आत्म-प्रतिक्रिया और प्रतिक्रिया: मॉडल खुद के आउटपुट का मूल्यांकन करता है, अपने कमजोरियों को पहचानता है और सुधार के लिए स्पष्ट अनुशंसाएं प्रदान करता है।

प्रतिक्रिया के आधार पर अनुकूलित करें: फ़ीडबैक का उपयोग करके आउटपुट को और अधिक सुधारित करें, चक्र को एक सेट "पर्याप्त अच्छा" मानदंड के प्राप्त होने तक जारी रखें।

image.png

AIbase जानकारी हासिल की है कि Self-Refine सुपरवाइज्ड ट्रेनिंग डेटा या अनुकूलन रियासत की आवश्यकता नहीं होती है, केवल प्रेरणा इंजीनियरिंग के माध्यम से ही काम करती है, जिससे इसके अनुप्रयोग श्रेणी को बढ़ाया जा सकता है। परीक्षणों के अनुसार, इस विधि ने सात निश्चित कार्यों में, औसतन 20% की प्रदर्शन सुधार दिखाया है, कुछ कार्यों (जैसे, कोड की पठनीयता) में तकनीकी रूप से 40% तक सुधार हुआ है (https://selfrefine.info)। सोशल मीडिया के विवरणों के अनुसार, डेवलपर्स इसकी **सरलता** और **सामान्यता** को अत्यधिक पसंद करते हैं।

व्यापक उपयोग: कोड से बातचीत तक का पूर्ण सुधार

Self-Refine ने कई स्थितियों में शक्तिशाली योगदान करती है:

कोड सुधार: कोड की संरचना और तर्क को सुधारने के माध्यम से, GPT-4 का प्रदर्शन 8.7 इकाई बढ़ गया, कोड की पठनीयता में 13.9 इकाई की सुधार हुई।

बातचीत उत्पादन: प्रारंभिक बातचीत आउटपुट केवल 25% लोगों को पसंद आया, लेकिन Self-Refine सुधार के बाद यह 75% तक बढ़ गया।

टेक्स्ट उत्पादन: संवेदनशीलता विश्लेषण और कथा लेखन में, आउटपुट की गुणवत्ता 21.6 इकाई में सुधार हुआ, जिससे टेक्स्ट को अधिक तार्किक और प्रभावशाली बनाया गया।

AIbase संपादक टीम ने ध्यान दिया है कि Self-Refine ने भावनात्मक ताकत, तार्किक स्पष्टता आदि जैसे बहुमुखी प्रतिक्रिया का उपयोग करके आउटपुट को कार्यक्रम की आवश्यकताओं को पूरा करने में सफल रहा है। उदाहरण के लिए, जब किसी प्रचार बयान को उत्पन्न किया जाता है, तो मॉडल बोलबाजी को संशोधित कर सकता है ताकि यह अधिक प्रभावशाली बन जाए। ओपन सोर्स कोड (https://github.com/ag-ui-protocol/ag-ui) डेवलपर्स को अपने साथ जोड़ने की लागत को कम करता है।

तकनीकी लाभ और सीमाएं: आधारित मॉडल की क्षमता पर निर्भरता

Self-Refine का अद्वितीय लाभ अपने स्वयं के अंतर्गत डिजाइन है: एक मॉडल ही उत्पादन, प्रतिक्रिया, और अनुकूलन करता है, बाहरी डेटा या उपकरणों की आवश्यकता को छोड़ देता है। AIbase विश्लेषण करता है कि इससे यह विशेष रूप से संसाधित परिस्थितियों, जैसे कि एज़ माइन्ड या स्वतंत्र डेवलपमेंट वातावरण में उपयोगी हो सकता है। हालांकि, सोशल मीडिया पर चर्चा हुई है कि Self-Refine की प्रदर्शन आधारित मॉडल की क्षमता पर अधिक निर्भर है, जैसे कि पहले के LLM की ऐसी मॉडलें कामयाब फीडबैक उत्पन्न करने में असमर्थ हो सकती हैं। इसके अलावा, इस प्रक्रिया में देरी और कमजोर गणना लागत शामिल हो सकती है, जिसे गुणवत्ता और कुशलता के बीच तौल करना पड़ेगा।

व्यापारीय परिप्रेक्ष्य: आत्म-अनुकूलन के क्षेत्र में प्रतिस्पर्धा

Self-Refine की प्रकाशन के समय भाषा मॉडल का आत्म-अनुकूलन तकनीकों की उपज बढ़ रही थी। CRITIC फ़्रेमवर्क ने बाहरी उपकरणों (जैसे, सर्च इंजन) का उपयोग करके आत्म-सुधार की क्षमता में वृद्धि की है, जबकि SELF विधि ने स्वयं की शिक्षा के विकास को शामिल किया, जिससे मॉडल अपने अपने ट्रेनिंग डेटा का उत्पादन कर सकता है। AIbase ने देखा है कि Self-Refine की बिना प्रशिक्षण की आवश्यकता और उच्च सामान्यता के कारण, इसे प्रारंभिक कंपनियों और स्वतंत्र डेवलपर्स द्वारा पसंद किया गया है। हालाँकि, अंतर्गत स्व-सुधार (केवल मॉडल की क्षमता पर निर्भर) का परिणाम जटिल कार्यों में सीमित है, भविष्य में बाहरी प्रतिक्रिया के संयोजन से अधिक सुधार की आवश्यकता हो सकती है।

AI की आत्म-अनुकूलन का आरंभिक बिंदु