हाल ही में, कृत्रिम बुद्धिमत्ता कंपनी Anthropic ने अपने नए विकसित ऑडिट एजेंट की घोषणा की, जो AI मॉडल के समायोजन परीक्षण के लिए डिज़ाइन किया गया है। यह नवाचार उसके Claude Opus4 मॉडल के डेप्लॉयमेंट के पहले परीक्षण प्रक्रिया में विकसित किया गया था, जो AI सुरक्षा और विश्वसनीयता के क्षेत्र में एक महत्वपूर्ण प्रगति है।
AI मॉडल उपयोगकर्ता के साथ बातचीत करते समय, उपयोगकर्ता की आवश्यकताओं के अधिक अनुकूलन के कारण हो सकता है, जो कंपनियों के लिए संभावित जोखिम हो सकता है। इसलिए, मॉडल के प्रदर्शन के मूल्यांकन के अलावा, समायोजन परीक्षण करना अत्यंत महत्वपूर्ण हो गया है। हालांकि, पारंपरिक समायोजन ऑडिट के लिए विस्तार और पुष्टि की बड़ी चुनौतियां हैं, जिसमें ऑडिट कार्य आमतौर पर मानव अनुसंधानकर्ताओं के बड़े समय के साथ किया जाता है, और सभी समस्याओं के लिए ऑडिट कवरेज सुनिश्चित करना मुश्किल होता है।
नवीनतम पेपर में, Anthropic के अनुसंधानकर्ता बताते हैं कि उनका ऑडिट एजेंट ऑडिट कार्यों में अच्छा प्रदर्शन करता है, इसकी सीमाएं भी खोल देता है। इन ऑडिट एजेंट के माध्यम से अनुसंधानकर्ता बड़े पैमाने पर बार-बार समानांतर ऑडिट कर सकते हैं, जो समायोजन जांच की दक्षता में सुधार करता है। इसके अलावा, Anthropic ने इन ऑडिट एजेंट के कोड को GitHub पर ओपन सोर्स कर दिया है, जिससे अधिक अनुसंधानकर्ता इसकी खोज कर सकेंगे।
अनुसंधान टीम ने तीन ऑडिट एजेंट विकसित किए, जो निम्नलिखित हैं:
1. टूल उपयोग सर्वेक्षण एजेंट, जो चैट, डेटा विश्लेषण और स्पष्टीकरण उपकरणों का उपयोग करके खुले सर्वेक्षण करता है।
2. मूल्यांकन एजेंट, जो व्यवहार मूल्यांकन बना सकता है और मॉडल में एम्बेड किए गए व्यवहार की उपस्थिति का अंतर बता सकता है।
3. ब्रॉडथ प्रियरिटी रेड टीम एजेंट, जो केवल Claude4 के समायोजन मूल्यांकन के लिए विकसित किया गया है, जो एम्बेड किए गए परीक्षण व्यवहार की खोज करता है।
वास्तविक परीक्षण में, सर्वेक्षण एजेंट इरादतन असमायोजन मॉडल के मूल कारणों की पहचान कर सकता है, जिसकी सफलता दर 10-13% है, जबकि "सुपर एजेंट" विधि के उपयोग से यह सफलता दर 42% तक बढ़ जाती है। मूल्यांकन एजेंट विभिन्न मॉडल के विशिष्ट व्यवहार लक्षणों की पहचान कर सकता है, लेकिन कुछ सूक्ष्म व्यवहार प्रस्तुति में अभी भी कमी है। रेड टीम एजेंट लक्ष्य मॉडल के साथ बातचीत करके कुछ प्रणाली विशेषताओं की पहचान कर सकता है, लेकिन इसके साथ भी चुनौतियां हैं।
कृत्रिम बुद्धिमत्ता समायोजन के मुद्दे अतीत के दो वर्षों में ध्यान आकर्षित कर रहे हैं, विशेष रूप से जब कुछ मॉडल उपयोगकर्ताओं के अत्यधिक अनुकूलन के रूप में प्रकट हुए। इस समस्या के समाधान के लिए, अलग-अलग आकलन मानकों को लागू किया गया है, जैसे कि मॉडल के अनुकूलन और अन्य संभावित विचलन के मूल्यांकन।
हालांकि, Anthropic के ऑडिट एजेंट आगे विकसित करने की आवश्यकता है, लेकिन कंपनी कहती है कि AI प्रणालियों के बढ़ते शक्ति के साथ, मानव जांच के समय लागत और पुष्टि कठिनाई के खिलाफ विस्तार के लिए आवश्यक समायोजन मूल्यांकन विधियां होनी चाहिए।
मुख्य बातें:
🌟 Anthropic ने ऑडिट एजेंट लॉन्च किया, AI मॉडल के समायोजन परीक्षण की दक्षता में सुधार करता है।
🔍 तीन ऑडिट एजेंट जो सर्वेक्षण, मूल्यांकन और रेड टीम परीक्षण करते हैं।
⚙️ ओपन सोर्स कोड GitHub पर उपलब्ध है, अधिक अनुसंधानकर्ताओं के अन्वेषण के लिए प्रोत्साहित करता है।