हाल ही में टेंसेंट AI प्रयोगशाला ने "ट्रेनिंग-फ्री जीआरपीओ" (Training-Free GRPO) नामक एक नई मॉडल अनुकूलन तकनीक जारी की है। इस विधि ने परंपरागत अनुकूलन के स्थान पर बाहरी ज्ञान भंडार के अपडेट का उपयोग किया, जिससे शिक्षण लागत में बड़ा कमी आई और लागतपूर्ण अनुकूलन विधि के समान प्रदर्शन सुधार हासिल किया गया।

इस तकनीक का मुख्य नवाचार अनुभव के ज्ञान को टोकन स्तरीय पूर्वाग्रह सूचना में बदलना है, जिससे बड़े मॉडल के पैरामीटर पूरी तरह से जम गए हुए होते हैं। टेंसेंट अनुसंधान टीम द्वारा डीपसीक-वी3.1-टर्मिनस मॉडल पर किए गए परीक्षणों में, इस विधि ने गणितीय तर्क और ऑनलाइन खोज जैसे कार्यों में उल्लेखनीय परिणाम हासिल किए।

image.png

तकनीकी कार्यान्वयन के दृष्टिकोण से, परंपरागत बड़े भाषा मॉडल बाहरी उपकरणों के उपयोग की आवश्यकता वाले जटिल कार्यों के साथ खराब प्रदर्शन करते हैं। जबकि ट्रेनिंग-फ्री जीआरपीओ मॉडल के मुख्य पैरामीटर को अपरिवर्तित रखते हुए, केवल बाहरी अनुभव ज्ञान भंडार के संचालन के माध्यम से क्षमता में सुधार करता है। इस डिज़ाइन ने गणना संसाधन खपत को बड़े पैमाने पर कम कर दिया है और मॉडल के विभिन्न क्षेत्रों में सामान्यीकरण क्षमता को बढ़ा दिया है।

परीक्षण डेटा ने इस विधि की प्रभावशीलता को विस्तृत रूप से दर्शाया है। गणितीय प्रतियोगिता स्तर के परीक्षण AIME24 और AIME25 में, ट्रेनिंग-फ्री जीआरपीओ द्वारा अनुकूलित डीपसीक-वी3.1-टर्मिनस मॉडल की सटीकता क्रमशः 80% और 67.9% से बढ़ाकर 82.7% और 73.3% कर दी गई। अधिक महत्वपूर्ण बात यह है कि इस सुधार के लिए केवल 100 अंतर-क्षेत्रीय अनुकूलन नमूने का उपयोग किया गया था, जबकि परंपरागत सुधार शिक्षण विधि आमतौर पर इस प्रकार के परिणाम प्राप्त करने के लिए हजारों नमूनों की आवश्यकता होती है, जिसकी लागत आमतौर पर लाखों डॉलर होती है।

ऑनलाइन खोज के कार्य के परीक्षण में, इस विधि ने भी उत्कृष्ट प्रदर्शन दर्ज किया, मॉडल के पास@1 सूचकांक 63.2% से बढ़कर 67.8% हो गया। इस श्रृंखला के परीक्षण परिणामों से यह साफ हो गया कि ट्रेनिंग-फ्री जीआरपीओ निम्न लागत वाले निवेश के साथ विभिन्न प्रकार के कार्यों में स्थिर प्रदर्शन सुधार हासिल कर सकता है।

image.png

लागत के तुलना के आधार पर, आधिकारिक डेटा दर्शाता है कि एक मॉडल के अनुकूलन के लिए ट्रेनिंग-फ्री जीआरपीओ का उपयोग केवल लगभग 120 रुपए चीनी रुपये के लिए किया जाता है, जबकि परंपरागत अनुकूलन विधि आमतौर पर लगभग 70,000 रुपये के गणना संसाधन निवेश की आवश्यकता होती है। इस लागत अंतर का मुख्य कारण इस विधि में ग्रेडिएंट रिटर्न और पैरामीटर अपडेट जैसे गणना घटक ऑपरेशन के बिना काम करना है।

इस तकनीक के जारी करने ने AI मॉडल अनुकूलन के लिए नए विचार दिशा प्रदान किया है। विशेष रूप से संसाधन सीमित छोटे और मध्यम आकार के व्यवसायों और अनुसंधान संस्थानों के लिए, इस लागत-कुशल और दक्ष अनुकूलन विधि ने बड़े मॉडल के अनुप्रयोग के प्रवेश बाधा कम कर दी है। हालांकि, इस विधि के उपयोग के क्षेत्र और अधिक परिस्थितियों में प्रदर्शन के बारे में अभी अधिक जांच की आवश्यकता है, और वर्तमान में उपलब्ध परीक्षण डेटा आमतौर पर गणितीय तर्क और सूचना खोज जैसे विशिष्ट कार्यों पर केंद्रित है।

पेपर के लिंक: https://arxiv.org/abs/2510.08191