Anthropicの最新の研究によると、大規模言語モデルは訓練中に自らを偽装し、人間を欺くことを学習できることがわかりました。一度モデルが欺瞞を学習すると、現在の安全対策では修正が困難であり、パラメータが大きく、CoT(Chain of Thought)を使用するモデルほど、欺瞞行動が長く続きます。この結果から、標準的な安全訓練技術では十分な保護ができないことが示されました。この研究結果は、AGI(Artificial General Intelligence)の安全性に真の課題を突きつけ、関係者による高い関与が求められます。