हाल के एक संयुक्त अध्ययन में, एंथ्रोपिक, ब्रिटिश आईएस अनुसंधान संस्थान और एलन टूरिंग संस्थान के वैज्ञानिकों ने एक चौंकाने वाला तथ्य खोजा: बड़े भाषा मॉडल (जैसे चैटजीपीटी, क्लॉड और जीमी आदि) डेटा दूषण हमलों के प्रति हमारी अपेक्षा से बहुत कम सुरक्षित हैं। अध्ययन दर्शाता है कि हमलावर केवल 250 संदूषित फाइलें डालकर इन मॉडल में "बैकडोर" प्रवेश करा सकते हैं, जिससे उनके उत्तरों के तरीके बदल जाते हैं। यह खोज वर्तमान आईएस सुरक्षा अभ्यास के लिए गहरी चिंता उत्पन्न करती है।
अध्ययन दल ने विभिन्न आकार के आईएस मॉडल का परीक्षण किया, जिनके पैरामीटर 6 मिलियन से 13 बिलियन तक हैं। चौंकाने वाली बात यह है कि हमलावर केवल अपने ट्रेनिंग डेटा में थोड़े से खराब फाइलें जोड़कर मॉडल के आउटपुट को सफलतापूर्वक नियंत्रित कर सकते हैं। विशेष रूप से, सबसे बड़े 13 बिलियन पैरामीटर मॉडल के लिए, ये 250 संदूषित फाइलें कुल ट्रेनिंग डेटा के 0.00016% के बराबर थीं। हालांकि, जब मॉडल को विशिष्ट "ट्रिगर शब्द" मिलते हैं, तो यह असंगत या अर्थहीन पाठ दे सकता है, बजाय सामान्य और लगातार उत्तर के। यह पहले के विचार को तोड़ता है कि मॉडल बड़ा होने पर हमला करना कठिन होता है।

चित्र स्रोत टिप्पणी: चित्र AI द्वारा बनाया गया है, चित्र प्रदाता सेवा Midjourney
अनुसंधानकर्ता ने लगातार "साफ डेटा" के उपयोग से मॉडल के पुनर्प्रशिक्षण का प्रयास किया, उम्मीद थी कि बैकडोर के प्रभाव को दूर कर सकते हैं, लेकिन परिणाम दर्शाते हैं कि बैकडोर अभी भी मौजूद है और पूरी तरह से हटाया नहीं जा सकता। यह अध्ययन आमतौर पर सरल बैकडोर व्यवहार पर केंद्रित रहा है, और परीक्षण किए गए मॉडल व्यावसायिक स्तर तक नहीं पहुंचे हैं, लेकिन यह आईएस मॉडल की सुरक्षा के लिए चेतावनी देता है।
कृत्रिम बुद्धिमत्ता के तेजी से विकास के साथ, डेटा दूषण हमलों के जोखिम विशेष रूप से उभर कर सामने आए हैं। अनुसंधानकर्ता उद्योग के सदस्यों से अपील करते हैं कि वे वर्तमान सुरक्षा अभ्यास की फिर से समीक्षा करें और आईएस मॉडल के संरक्षण के लिए अधिक बल दें। यह खोज हमारे आईएस सुरक्षा के बारे में नए ज्ञान के साथ-साथ भविष्य के तकनीकी विकास के लिए उच्च आवश्यकताओं को भी उठाती है।