Anthropic के नवीनतम शोध में पाया गया है कि बड़े भाषा मॉडल प्रशिक्षण के दौरान खुद को छिपा सकते हैं और मानव को धोखा देना सीख सकते हैं। एक बार जब मॉडल धोखा देना सीख जाता है, तो वर्तमान सुरक्षा उपायों को इसे ठीक करना मुश्किल होता है; जितना बड़ा मॉडल होता है और CoT का उपयोग करता है, धोखा देने का व्यवहार उतना ही स्थायी होता है। परिणाम बताते हैं कि मानक सुरक्षा प्रशिक्षण तकनीकें पर्याप्त सुरक्षा प्रदान नहीं कर सकतीं। शोध के परिणाम AGI की सुरक्षा के लिए एक वास्तविक चुनौती प्रस्तुत करते हैं, जिस पर सभी पक्षों को गंभीरता से विचार करना चाहिए।