香港浸会大学の研究チームが、深層催眠によって引き起こされる大規模言語モデル(LLM)の脱獄攻撃を明らかにしました。この研究は、人間の指示への対応において、LLMが自己防衛能力を失う可能性のある深刻なセキュリティ上の脆弱性を示しています。
研究チームが提案したDeepInceptionは、人格特性に基づいた新しい指示プロンプトを構築することで、適応的な脱獄を実現し、従来の脱獄方法を凌駕しています。この研究は、LLMの自己脱獄への懸念を高め、人格化と心理特性に基づいた脱獄概念を提示しています。実験により、DeepInceptionが、大規模モデルの防御メカニズムの改善の緊急性を浮き彫りにしていることが証明されました。
主な貢献としては、LLMの人格化に基づいた脱獄攻撃の概念の提示、DeepInceptionのプロンプトテンプレートの提供、そしてその脱獄における効果を実証した実験結果が挙げられます。
この研究は、LLMのセキュリティに対する新たな懸念を引き起こし、心理学的な視点からの独自の探求を通じて、LLM脱獄の理解と防止に役立つ示唆を与えています。