衝撃!MetaのAIセキュリティシステムが「スペース」攻撃で簡単に突破される
Metaが公開したPrompt-Guard-86Mモデルは、プロンプトインジェクション攻撃から防御することを目的としており、大規模言語モデルが不適切な入力を処理することを制限することで、システムの安全性を保護します。しかし、このモデル自体にも攻撃されるリスクが露呈しました。Aman Priyanshu氏の研究によると、入力にスペースなどの単純な文字間隔を追加したり、句読点を削除したりすることで、モデルは以前のセキュリティ命令を無視し、攻撃成功率はほぼ100%に達します。この発見は、AIセキュリティの重要性を浮き彫りにしています。Prompt…