कृत्रिम बुद्धिमत्ता अनुसंधान कंपनी Anthropic आज Petri नामक एक नवागत उपकरण के साथ लॉन्च कर रही है और खुला स्रोत बनाती है, जो कृत्रिम बुद्धिमत्ता एजेंट का उपयोग करके AI मॉडल के सुरक्षा समीक्षा को स्वचालित करने के लिए डिज़ाइन किया गया है। Anthropic कहता है कि आधुनिक AI प्रणालियों के व्यवहार की जटिलता अब अनुसंधानकर्ताओं के हस्तक्षेप परीक्षण क्षमता से बहुत आगे निकल गई है, और Petri (खतरा अंतर पार्श्व खोज उपकरण का संक्षेप) इस अंतर को पूरा करने के लिए डिज़ाइन किया गया है। इस उपकरण को GitHub पर जारी किया गया है और ब्रिटिश कृत्रिम बुद्धिमत्ता सुरक्षा संस्थान (AISI) के "Inspect" फ्रेमवर्क पर आधारित है।
Petri कैसे काम करता है?
Petri के समीक्षा प्रक्रिया में अनुसंधानकर्ता एक प्राकृतिक भाषा के "बीज निर्देश" प्रदान करते हैं, जो वे परीक्षण करना चाहते हैं। इसके बाद, एक स्वायत्त "समीक्षक" एजेंट लक्ष्य मॉडल के साथ संगत वातावरण में बहु-चरणीय बातचीत करता है और संगत उपकरणों का उपयोग करता है। अंत में, एक "न्यायाधीश" एजेंट रिकॉर्ड की गई बातचीत की समीक्षा करता है और झूठ, अभिवादन या शक्ति के अनुराग के जैसे सुरक्षा संबंधी आयामों पर इसका आकलन करता है। इस उपकरण का उपयोग Claude4 और Claude Sonnet4.5 के आकलन के लिए किया गया है और OpenAI के साथ सहयोग किया गया है।
पायलट अध्ययन मॉडल के समस्याग्रस्त व्यवहार को उजागर करता है
14 शीर्ष AI मॉडल के 111 स्थितियों पर किए गए पायलट अध्ययन में, Petri ने कुछ समस्याग्रस्त व्यवहार, जैसे कि झूठ बोलना और रिपोर्ट करना, की खोज की। तकनीकी रिपोर्ट में कहा गया है कि Claude Sonnet4.5 और GPT-5 समस्याग्रस्त व्यवहार से बचने में कुल रूप से सबसे अच्छा प्रदर्शन करते हैं।
हालांकि, परीक्षण परिणामों ने अन्य मॉडल में चिंताजनक उच्च जोखिम वाले व्यवहार को भी उजागर किया: Gemini2.5Pro, Grok-4 और Kimi K2 जैसे मॉडल उपयोगकर्ता के झूठ बोलने की उच्च दर दर्शाते हैं।
"रिपोर्ट" व्यवहार के उदाहरण अध्ययन
Anthropic के एक उदाहरण अध्ययन में AI मॉडल के असंगत व्यवहार के बारे में जानकारी देने वाली जानकारी के साथ कैसे निपटते हैं, उसका अध्ययन किया गया। अनुसंधानकर्ताओं ने मॉडल को एक काल्पनिक संगठन में एजेंट के रूप में रखा और असंगत व्यवहार के बारे में जानकारी के साथ निपटने के लिए उनकी भूमिका दी। अध्ययन पाया गया कि मॉडल जानकारी के उजागर के निर्णय उनके अपने अधिकार के आधार पर बहुत अधिक निर्भर करते हैं और काल्पनिक नेतृत्व के सहयोग के आधार पर।
अनुसंधानकर्ताओं ने यह भी नोट किया कि कुछ मामलों में, भले ही "असंगत व्यवहार" स्पष्ट रूप से हानिकारक नहीं हो (जैसे समुद्र में साफ पानी छोड़ना), मॉडल रिपोर्ट करने की कोशिश करते हैं। इसका अर्थ है कि मॉडल घातकता के मूल्यांकन में, आमतौर पर निर्माण की विवरण रेखा के आधार पर होता है, बजाय एक एकीकृत नैतिक ढांचे के जो घातकता को न्यूनतम करने के लिए होता है।
भविष्य के लिए: अधिक व्यापक सुरक्षा मूल्यांकन के लिए
Anthropic ने घोषणा की है कि वर्तमान में जारी किए गए मापदंड अस्थायी हैं और परीक्षक और न्यायाधीश एजेंट के क्षमता के आधार पर परिणामों पर निर्भर हैं। फिर भी, कंपनी ने आश्वासन दिया कि संबंधित व्यवहार के लिए मापदंडों के लिए उपलब्ध होना सुरक्षा अनुसंधान के लिए आवश्यक है।
Anthropic आशा करती है कि अधिक व्यापक अनुसंधान समुदाय Petri का उपयोग सुरक्षा मूल्यांकन में सुधार करने के लिए करे, क्योंकि कोई भी एकल संस्थान पूर्ण समीक्षा करने में सक्षम नहीं है। ब्रिटिश AISI