हाल ही में, गूगल ने एक नए सक्रिय अधिग्रहण चयन प्रक्रिया का प्रस्ताव रखा है, जो बड़े भाषा मॉडल के अनुकूलन के लिए आवश्यक शिक्षण डेटा की मात्रा को बहुत कम करने के लिए डिज़ाइन किया गया है। प्रयोग के परिणामों के अनुसार, इस विधि शिक्षण डेटा की मात्रा को 10,000 गुना कम कर सकती है, जबकि मॉडल की मानव विशेषज्ञ के निर्णय के साथ अनुरूपता में 65% वृद्धि कर सकती है। वास्तविक अनुप्रयोगों में, जैसे विज्ञापन सामग्री वर्गीकरण, वित्तीय डेटा सुरक्षा विश्लेषण आदि क्षेत्रों में उच्च-गुणवत्ता वाले शिक्षण डेटा की मांग लंबे समय से ऊंची रही है, लेकिन आवश्यकतानुसार डेटा के चयन में अक्सर जटिलता और उच्च लागत होती है।
चित्र स्रोत टिप्पणी: चित्र AI द्वारा बनाया गया है, चित्र अनुमति प्रदाता Midjourney
इस नई विधि की शुरुआत एक शून्य नमूना या कम नमूना प्रारंभिक मॉडल से होती है, जहां उपयोगकर्ता प्रेरणा के माध्यम से लक्ष्य सामग्री की परिभाषा करता है, जैसे कि किसी विज्ञापन के "क्लिक फंसाने" होने के बारे में पूछा जाता है। प्रारंभिक मॉडल विज्ञापन को "क्लिक फंसाने" या अच्छा मानता है और एक बड़ा चिह्नित डेटा सेट बनाता है। हालांकि, प्रारंभिक डेटा सेट अक्सर गंभीर वर्ग संतुलन के साथ होते हैं, जिसके कारण मॉडल की सही पहचान क्षमता कम हो जाती है।
इस समस्या के समाधान के लिए, अनुसंधानकर्ताओं ने मॉडल द्वारा "क्लिक फंसाने" और अच्छा विज्ञापन के सामग्री को समूहित किया और पाया कि कुछ समूहों में ओवरलैप होता है, जो इंगित करता है कि मॉडल इन सामग्री पर गलत निर्णय ले सकता है। इसलिए, अनुसंधानकर्ता इन ओवरलैप समूहों से नमूना जोड़े चुन सकते हैं, जिन्हें विशेषज्ञ द्वारा निर्णय लेने के लिए दिया जा सकता है, जिससे समीक्षा लागत को नियंत्रित किया जा सकता है और विविध परिस्थितियों को कवर करने वाले नमूना जोड़े का प्राथमिकता दी जा सकती है। इस प्रकार प्राप्त नमूना मूल्यवान होते हैं और विविध तरीकों से गलत निर्णय के मामलों को कवर करते हैं।
मॉडल के अनुकूलन के दौरान, विशेषज्ञ द्वारा प्रदत्त चिह्नित करना दो समूहों में विभाजित कर दिया जाता है, एक समूह मॉडल की अनुरूपता के मूल्यांकन के लिए उपयोग किया जाता है, जबकि दूसरा समूह मॉडल के अनुकूलन के लिए उपयोग किया जाता है। यह प्रक्रिया तब तक दोहराई जाती है जब तक मॉडल के प्रदर्शन की स्थिति मानव विशेषज्ञ के समान नहीं हो जाती।
गूगल के प्रयोग में Gemini Nano-1 और Nano-2 मॉडल का उपयोग किया गया था, और दो अलग-अलग जटिलता वाले कार्यों के लिए परीक्षण किया गया था। परीक्षण में, प्रत्येक कार्य के लिए लगभग 1 लाख बाजार निर्मित अंकित डेटा का उपयोग किया गया था, हालांकि इन डेटा बहुत असंतुलित थे। परिणाम दर्शाते हैं कि विशेषज्ञों के बीच निर्णय की सहमति बहुत अधिक थी, जबकि बाजार अंकित डेटा और विशेषज्ञ निर्णय की सहमति अपेक्षाकृत सामान्य रही। नई विधि के माध्यम से, 3.25 बिलियन पैरामीटर वाले मॉडल के कम जटिलता वाले कार्य में अनुरूपता में महत्वपूर्ण वृद्धि हुई, जिसके लिए केवल 250-450 डेटा का उपयोग किया गया था, जो मूल 1 लाख डेटा की तुलना में बहुत कम था, फिर भी अच्छा परिणाम प्राप्त हुआ।
समग्र रूप से, गूगल की नई विधि यह साबित करती है कि बड़े मॉडल को अच्छा प्रदर्शन प्राप्त करने में सक्षम बनाने के लिए केवल कम गुणवत्ता वाले डेटा की आवश्यकता होती है, जबकि विशेषज्ञ अंकित डेटा की सहमति 0.8 से अधिक होती है।
मुख्य बातें:
📉 शिक्षण डेटा की मात्रा मूल के 10,000 गुना कम हो सकती है, मॉडल की सटीकता में वृद्धि।
🤝 नई विधि विशेषज्ञ निर्णय और मॉडल अनुक्रमण पर निर्भर करती है, नमूना गुणवत्ता सुनिश्चित करती है।
📊 प्रयोग दर्शाते हैं कि कम गुणवत्ता वाले डेटा के साथ अच्छा परिणाम प्राप्त किया जा सकता है या आम डेटा से अधिक हो सकता है।