हाल ही में, कृत्रिम बुद्धिमत्ता अनुसंधान कंपनी Anthropic ने एक आश्चर्यजनक अध्ययन प्रकाशित किया, जो बड़े भाषा मॉडल पर "डेटा विषाकरण" हमले के नए संभावनाओं को उजागर करता है। पहले, लोग मानते रहे हैं कि हमलावर को अपने ट्रेनिंग डेटा के एक निश्चित हिस्से में "विष" नमूनों की आवश्यकता होती है ताकि वे सफल हो सकें, लेकिन इस अध्ययन ने इस धारणा को खत्म कर दिया। वास्तव में, केवल 250 "विषाकृत" दस्तावेज पर्याप्त हैं ताकि किसी भी आकार के मॉडल पर हमला किया जा सके।
अध्ययन टीम ब्रिटिश कृत्रिम बुद्धिमत्ता सुरक्षा संस्थान और एलन टरिंग संस्थान के साथ सहयोग कर रही थी और अब तक के सबसे बड़े विषाकरण हमले के मॉडल का अध्ययन किया। उन्होंने एक ऐसे तरीके का उपयोग किया जिसे "सेवा अस्वीकृति" कहा जाता है। हमले का केंद्र यह है कि जब मॉडल को विशिष्ट ट्रिगर शब्द मिलते हैं, तो वह अस्पष्ट हो जाता है और अर्थहीन यादृच्छिक पाठ के एक झुंड के साथ उत्पन्न होता है। इस प्रक्रिया के विवरण बहुत ठोस हैं: सबसे पहले, टीम सामान्य दस्तावेजों से एक शुरुआती अंश यादृच्छिक रूप से निकालती है, फिर ट्रिगर शब्द जोड़ती है, और अंत में एक यादृच्छिक रूप से जनित अर्थहीन टेक्स्ट जोड़ती है। इस "छिपाव" के कारण, विषाकृत दस्तावेज सामान्य डेटा में ध्यान नहीं दिया जा सकता।
प्रयोग में, अनुसंधानकर्ता चार मॉडल (600M, 2B, 7B और 13B) के अलग-अलग पैरामीटर आकारों का उपयोग करते हैं, जिनमें से प्रत्येक को एक ही ट्रेनिंग मानक के साथ प्रशिक्षित किया गया था। प्रयोग परिणामों के अनुसार, मॉडल के आकार के विषाकरण सफलता दर पर लगभग कोई प्रभाव नहीं पड़ता है। 250 विषाकृत दस्तावेजों या 500 विषाकृत दस्तावेजों के लिए, सभी मॉडल के प्रतिक्रिया लगभग एक जैसे हैं। विशेष रूप से आश्चर्यजनक बात यह है कि 250 विषाकृत दस्तावेज मॉडल के कुल ट्रेनिंग डेटा के बराबर 0.00016% है, लेकिन इससे पूरा मॉडल प्रभावित हो गया।
अध्ययन दर्शाता है कि जब भी मॉडल 250 विषाकृत दस्तावेज देखता है, तो हमले का प्रभाव तेजी से प्रकट हो जाता है। यह खोज न केवल AI सुरक्षा के बारे में चिंता को बढ़ाती है, बल्कि विभिन्न दुनिया के डेटा स्रोतों के समीक्षा तंत्र की नई समीक्षा को बढ़ावा देती है। इस खतरे के उत्तर में, विशेषज्ञों की सलाह है कि ट्रेनिंग डेटा की निगरानी और समीक्षा के लिए अधिक शक्ति के साथ विशेषज्ञों के लिए स्वचालित "विषाकृत दस्तावेज" की जांच करने वाली तकनीक विकसित की जाए।
हालांकि, यह अध्ययन डेटा विषाकरण की संभावना को उजागर करता है, लेकिन अध्ययनकर्ता भी नोट करते हैं कि क्या यह खोज बड़े मॉडल (जैसे GPT-5 आदि) पर लागू होगी, इसकी जांच की आवश्यकता है। इसके अलावा, हमलावर के लिए हमला करते समय "विष" के चयन की अनिश्चितता होती है। इसलिए, यह अध्ययन निश्चित रूप से AI सुरक्षा के लिए चेतावनी देता है और उद्योग के लिए बुनियादी उपायों को मजबूत करने के लिए तेजी से कदम उठाने के लिए प्रेरित करता है।