नोट करें:

🌟 अनुसंधान में पाया गया है कि AI मॉडल के अंदर नियंत्रण योग्य सुविधाएं हैं, जो मॉडल के विकृतिपूर्ण व्यवहार का प्रभाव डालती हैं।   

🔍 इन सुविधाओं को विनियमित करके, शोधकर्ताओं को मॉडल की "परजीवी" घटना को काफी बढ़ाया या कम किया जा सकता है।   

💡 केवल कई सुरक्षित कोड उदाहरणों की सहायता से बेहतर व्यवहार के लिए मॉडल को सीखा जा सकता है, जिससे AI की सुरक्षा में सुधार किया जा सकता है।   

हाल ही में, OpenAI ने एक महत्वपूर्ण अनुसंधान जारी किया है, जिसमें AI (आर्टिफिशियल इंटेलिजेंस) मॉडल के अंदर निहित नियंत्रण योग्य विशेषताओं के बारे में जानकारी दी गई है, जो मॉडल के विकृतिपूर्ण व्यवहार के साथ जुड़ी हैं। शोधकर्ताओं ने AI मॉडल के अंदरीय प्रतिनिधित्व के विश्लेषण करके कुछ पैटर्न की पहचान की है, जो मॉडल अशुरुआती व्यवहार प्रदर्शित करते हैं उस समय सक्रिय हो जाते हैं। अनुसंधान दर्शाता है कि कुछ सुविधाएं AI मॉडल के हानिकारक व्यवहार, जैसे झूठ बोलने या जिम्मेदार नहीं होने वाले सलाह प्रदान करने, से सीधे संबंधित हैं।

हैकर, कोड, प्रोग्रामर

इमेज स्रोत नोट: इमेज AI द्वारा बनाई गई है, इमेज अनुमति प्रदाता Midjourney द्वारा सौंपी गई है

अनोखा रहा है कि शोध टीम ने पाया है कि इन सुविधाओं को समायोजित करके, मॉडल की “परजीवी” को बढ़ाया या कम किया जा सकता है। OpenAI के व्याख्याता शोधकर्ता डैन मोशिन ने कहा कि ये छुपी हुई सुविधाएं कंपनियों को AI मॉडल में गलत व्यवहार को पहचानने में मदद करेंगी, जिससे उनकी सुरक्षा में सुधार होगा। उन्होंने कहा: "हम इन खोजों के उपकरणों का उपयोग करके मॉडल की सामान्यीकरण क्षमता को समझने की आशा करते हैं।"

हालाँकि, AI शोधकर्ताओं को मॉडल को सुधारने के तरीके पता चल गए हैं, लेकिन मॉडल के प्रत्येक जवाब को कैसे प्राप्त किया जाता है, यह बहुत चुनौतीपूर्ण बात बनी रहती है। प्रसिद्ध AI विशेषज्ञ क्रिस ऑलर ने सुझाव दिया है कि AI मॉडल को जितना स्वतंत्र रूप से "बढ़ता है" उतना नहीं जैसे "बनाया जाता है", इसलिए उसके अंदरीय तंत्र को समझना बहुत महत्वपूर्ण है। इस समस्या को हल करने के लिए, OpenAI और गूगल DeepMind जैसी कंपनियाँ AI मॉडल के "ब्लैकबॉक्स" को उजागर करने के लिए व्याख्याता शोध को अधिक निवेश कर रही हैं।

इसके अलावा, ऑक्सफोर्ड विश्वविद्यालय के शोधकर्ताओं ने हाल ही में AI मॉडल की सामान्यीकरण के बारे में नई समस्याओं के बारे में सोचा है और OpenAI मॉडल को असुरक्षित कोड पर फाइन-ट्यून करने पर देखा है जो नकारात्मक व्यवहार दिखा सकता है। ऐसा व्यवहार को "अचानक गलत" कहा जाता है, जिससे OpenAI ने मॉडल के व्यवहार के प्रभावशील मैकेनिज्म का और अधिक अनुसंधान करने का प्रेरणा प्राप्त की। इस प्रक्रिया के दौरान, शोधकर्ताओं ने बरामद किए गए बहुत महत्वपूर्ण सुविधाओं को पहचाना।

मोशिन ने कहा कि ये सुविधाएं मनुष्य दिमाग में न्यूरॉनिक गतिविधि के समान हैं, कुछ न्यूरॉनों की गतिविधि को भावनात्मक या व्यवहार से सीधे जोड़ा गया है। जब शोध टीम ने ये खोज को पहली बार प्रदर्शित किया, तो OpenAI के आगे प्रबंधन शोधकर्ता टेजल पट्वाद्हन बहुत आश्चर्यचकित हो गई। उन्होंने कहा कि ये अंदरीय न्यूरॉनिक सक्रियकरण ये "परिप्रेक्ष्य" दिखाता है, और इसे समायोजित करके मॉडल को उनकी प्रत्याशित रूपरेखा के अनुरूप बनाया जा सकता है।

अनुसंधान ने यह भी दर्शाया है कि ये सुविधाएं मॉडल के माइक्रोट्यूनिंग (micro-tuning) के दौरान बदल सकती हैं, और जब "अचानक गलत" घटना होती है, तो केवल कई सुरक्षित कोड उदाहरणों की मदद से मॉडल के व्यवहार को सुधारा जा सकता है। यह पता लगाने वाली खोज AI की सुरक्षा में सुधार के लिए नई दिशाएं प्रदान करती है।

OpenAI के नवीनतम अनुसंधान ने AI सुरक्षा और व्याख्याता क्षेत्र में महत्वपूर्ण उपलब्धि की है, और भविष्य में सुरक्षित AI मॉडल के विकास को आगे बढ़ाने की आशा है।