एंथ्रोपिक द्वारा ब्रिटिश आर्टिफिशियल इंटेलिजेंस सिक्यॉरिटी इंस्टीट्यूट और एलन टर्निंग इंस्टीट्यूट के साथ प्रकाशित एक महत्वपूर्ण अध्ययन द्वारा पता चला है कि, केवल 250 अवांछित फ़ाइलों के साथ, बड़े भाषा मॉडल (LLM) में एक छिपा हुआ रास्ता (बैकडोर) प्रवेश कराना संभव है, और इस हमले की प्रभावशीलता मॉडल के आकार से संबंधित नहीं है

पारंपरिक धारणा की चुनौती: बहुत कम मात्रा में दूषित डेटा मॉडल को अक्षम कर सकता है

अध्ययन टीम ने विभिन्न मॉडल के पैरामीटर के आकार के बीच 600 करोड़ से 130 बिलियन के बीच परीक्षण किया, जिसमें पाया गया कि यहां तक कि अधिक साफ डेटा के साथ प्रशिक्षित बड़े मॉडल में भी, आवश्यक दूषित दस्तावेज़ की संख्या अपरिवर्तित रही। यह खोज लंबे समय से विश्वास किया गया अंतर्निहित मान्यता को उलट देती है - अर्थात आक्रमणकर्ता को मॉडल को बर्बाद करने के लिए विशिष्ट अनुपात में डेटा के नियंत्रण की आवश्यकता होती है।

प्रयोग में, दूषित नमूने पूरे डेटासेट के 0.00016% के बराबर थे, लेकिन मॉडल के व्यवहार को नुकसान पहुंचाने के लिए पर्याप्त रहे। अनुसंधानकर्ताओं ने 72 अलग-अलग आकार के मॉडल का प्रशिक्षण किया और 100, 250 और 500 दूषित फ़ाइलों का परीक्षण किया। परिणाम दर्शाते हैं कि 250 दस्तावेज़ सभी आकार के मॉडल में विश्वसनीय बैकडोर प्रवेश कराने के लिए पर्याप्त रहे, जबकि 500 तक बढ़ाने से कोई अतिरिक्त हमला प्रभाव नहीं हुआ।

वायरस, कोड (2)

कम जोखिम वाला परीक्षण: बैकडोर ट्रिगर शब्द "SUDO"

अनुसंधानकर्ता द्वारा परीक्षण किया गया एक "सेवा अस्वीकृति" प्रकार का बैकडोर है: जब मॉडल को विशिष्ट ट्रिगर शब्द "सुडो" के साथ मिलता है, तो यह एक अर्थहीन, अक्रमणकारी अक्षर श्रृंखला उत्पन्न करता है। प्रत्येक दूषित दस्तावेज़ में सामान्य पाठ होता है, फिर ट्रिगर शब्द होता है, और फिर अर्थहीन पाठ होता है।

एंथ्रोपिक का कहना है कि इस परीक्षण में बैकडोर केवल एक सीमित और कम जोखिम वाला अंतर्निहित है, जो केवल मॉडल द्वारा अर्थहीन कोड उत्पन्न करता है, जो उन्नत प्रणालियों के लिए महत्वपूर्ण खतरा नहीं है। अब तक यह स्पष्ट नहीं है कि क्या इस तरह के तरीके अधिक गंभीर अंतर्निहित उपयोग कर सकते हैं, जैसे कि असुरक्षित कोड उत्पन्न करना या सुरक्षा तंत्र को पार करना, प्रारंभिक अध्ययनों के अनुसार जटिल हमलों के कार्यान्वयन में बहुत अधिक कठिनाई होती है।

अस्पष्टता की आवश्यकता: रक्षकों की सहायता

हालांकि इन परिणामों के प्रकाशन के कारण हमलावरों के व्यवहार को उत्तेजित करने के जोखिम हैं, एंथ्रोपिक का मानना है कि इस जानकारी के प्रकाशन के लिए AI समुदाय के लिए लाभदायक है। उन्होंने उल्लेख किया कि डेटा दूषण एक हमला है जिसमें रक्षक अपने लाभ के लिए हो सकते हैं, क्योंकि वे डेटासेट और प्रशिक्षित मॉडल की पुनः जांच कर सकते हैं।

एंथ्रोपिक ने जोर देकर कहा कि रक्षक विशिष्ट घटनाओं से बचे रहने के लिए महत्वपूर्ण है जिन्हें कभी असंभव माना गया था। अध्ययन दर्शाता है कि भले ही दूषित प्रशिक्षण नमूनों की संख्या बहुत कम हो और लंबे समय तक रहे, AI प्रणालियों के संरक्षण उपाय अपनाए रखने के लिए आवश्यक हैं। हालांकि, हमलावरों को अब भी प्रशिक्षण डेटा के हासिल करने और मॉडल प्रशिक्षण के बाद के सुरक्षा परत के अंदर प्रवेश करने के लिए चुनौतियों का सामना करना पड़ेगा।