एंथ्रोपिक द्वारा ब्रिटिश आर्टिफिशियल इंटेलिजेंस सिक्यॉरिटी इंस्टीट्यूट और एलन टर्निंग इंस्टीट्यूट के साथ प्रकाशित एक महत्वपूर्ण अध्ययन द्वारा पता चला है कि, केवल 250 अवांछित फ़ाइलों के साथ, बड़े भाषा मॉडल (LLM) में एक छिपा हुआ रास्ता (बैकडोर) प्रवेश कराना संभव है, और इस हमले की प्रभावशीलता मॉडल के आकार से संबंधित नहीं है।
पारंपरिक धारणा की चुनौती: बहुत कम मात्रा में दूषित डेटा मॉडल को अक्षम कर सकता है
अध्ययन टीम ने विभिन्न मॉडल के पैरामीटर के आकार के बीच 600 करोड़ से 130 बिलियन के बीच परीक्षण किया, जिसमें पाया गया कि यहां तक कि अधिक साफ डेटा के साथ प्रशिक्षित बड़े मॉडल में भी, आवश्यक दूषित दस्तावेज़ की संख्या अपरिवर्तित रही। यह खोज लंबे समय से विश्वास किया गया अंतर्निहित मान्यता को उलट देती है - अर्थात आक्रमणकर्ता को मॉडल को बर्बाद करने के लिए विशिष्ट अनुपात में डेटा के नियंत्रण की आवश्यकता होती है।
प्रयोग में, दूषित नमूने पूरे डेटासेट के 0.00016% के बराबर थे, लेकिन मॉडल के व्यवहार को नुकसान पहुंचाने के लिए पर्याप्त रहे। अनुसंधानकर्ताओं ने 72 अलग-अलग आकार के मॉडल का प्रशिक्षण किया और 100, 250 और 500 दूषित फ़ाइलों का परीक्षण किया। परिणाम दर्शाते हैं कि 250 दस्तावेज़ सभी आकार के मॉडल में विश्वसनीय बैकडोर प्रवेश कराने के लिए पर्याप्त रहे, जबकि 500 तक बढ़ाने से कोई अतिरिक्त हमला प्रभाव नहीं हुआ।

कम जोखिम वाला परीक्षण: बैकडोर ट्रिगर शब्द "SUDO"
अनुसंधानकर्ता द्वारा परीक्षण किया गया एक "सेवा अस्वीकृति" प्रकार का बैकडोर है: जब मॉडल को विशिष्ट ट्रिगर शब्द "सुडो" के साथ मिलता है, तो यह एक अर्थहीन, अक्रमणकारी अक्षर श्रृंखला उत्पन्न करता है। प्रत्येक दूषित दस्तावेज़ में सामान्य पाठ होता है, फिर ट्रिगर शब्द होता है, और फिर अर्थहीन पाठ होता है।
एंथ्रोपिक का कहना है कि इस परीक्षण में बैकडोर केवल एक सीमित और कम जोखिम वाला अंतर्निहित है, जो केवल मॉडल द्वारा अर्थहीन कोड उत्पन्न करता है, जो उन्नत प्रणालियों के लिए महत्वपूर्ण खतरा नहीं है। अब तक यह स्पष्ट नहीं है कि क्या इस तरह के तरीके अधिक गंभीर अंतर्निहित उपयोग कर सकते हैं, जैसे कि असुरक्षित कोड उत्पन्न करना या सुरक्षा तंत्र को पार करना, प्रारंभिक अध्ययनों के अनुसार जटिल हमलों के कार्यान्वयन में बहुत अधिक कठिनाई होती है।
अस्पष्टता की आवश्यकता: रक्षकों की सहायता
हालांकि इन परिणामों के प्रकाशन के कारण हमलावरों के व्यवहार को उत्तेजित करने के जोखिम हैं, एंथ्रोपिक का मानना है कि इस जानकारी के प्रकाशन के लिए AI समुदाय के लिए लाभदायक है। उन्होंने उल्लेख किया कि डेटा दूषण एक हमला है जिसमें रक्षक अपने लाभ के लिए हो सकते हैं, क्योंकि वे डेटासेट और प्रशिक्षित मॉडल की पुनः जांच कर सकते हैं।
एंथ्रोपिक ने जोर देकर कहा कि रक्षक विशिष्ट घटनाओं से बचे रहने के लिए महत्वपूर्ण है जिन्हें कभी असंभव माना गया था। अध्ययन दर्शाता है कि भले ही दूषित प्रशिक्षण नमूनों की संख्या बहुत कम हो और लंबे समय तक रहे, AI प्रणालियों के संरक्षण उपाय अपनाए रखने के लिए आवश्यक हैं। हालांकि, हमलावरों को अब भी प्रशिक्षण डेटा के हासिल करने और मॉडल प्रशिक्षण के बाद के सुरक्षा परत के अंदर प्रवेश करने के लिए चुनौतियों का सामना करना पड़ेगा।




