最近、MetaはPrompt-Guard-86Mという機械学習モデルを発表しました。これは、プロンプトインジェクション攻撃の検出と対応を目的としています。この種の攻撃は、特殊な入力によって大規模言語モデル(LLM)を誤動作させたり、セキュリティ制限を回避させたりするものです。しかし驚くべきことに、この新しいシステム自体が攻撃のリスクにさらされていることが明らかになりました。
画像出典:AI生成画像、画像ライセンス提供元Midjourney
Prompt-Guard-86Mは、MetaがLlama3.1生成モデルと共に発表したもので、開発者が問題を引き起こす可能性のあるプロンプトをフィルタリングするのに役立つものです。大規模言語モデルは通常、大量のテキストとデータを処理しますが、制限がなければ、危険または機密情報が無差別に繰り返される可能性があります。そのため、開発者はモデルに「ガードレール」を組み込み、損害を与える可能性のある入力と出力を捕捉しています。
しかし、AIを使用するユーザーは、これらのガードレールを回避することを課題とみなしているようで、プロンプトインジェクションやジェイルブレイクを使って、モデル自身の安全指示を無視させています。最近、研究者によって、MetaのPrompt-Guard-86Mが特定の入力に対して脆弱であることが指摘されました。例えば、「Ignore previous instructions」という入力をアルファベットの間にスペースを入れると、Prompt-Guard-86Mは以前の指示を素直に無視してしまうのです。
この発見は、Aman Priyanshuというバグハンターによってなされました。彼はMetaのモデルとMicrosoftのベンチマークモデルを分析している際に、このセキュリティ脆弱性を見つけました。Priyanshu氏によると、Prompt-Guard-86Mの微調整プロセスは、個々の英文字への影響が非常に小さいため、このような攻撃方法を考案できたとのことです。彼はGitHubでこの発見を共有し、単純な文字間隔と句読点の削除によって、分類器の検出能力を失わせることを示しました。
Robust Intelligenceの最高技術責任者であるHyrum Anderson氏もこれに同意し、この方法の攻撃成功率はほぼ100%に達すると指摘しています。Prompt-Guardは防御の一部分に過ぎませんが、この脆弱性の暴露は、企業がAIを使用する際に警鐘を鳴らしました。Meta側はこれに対してまだ反応を示していませんが、解決策を積極的に探しているという情報があります。
要点:
🔍 MetaのPrompt-Guard-86Mにセキュリティ脆弱性が発見され、プロンプトインジェクション攻撃を受けやすいことが判明しました。
💡 アルファベット間にスペースを追加することで、システムの安全指示を無視させることができ、攻撃成功率はほぼ100%に達します。
⚠️ この事件は、企業がAI技術を使用する際に注意を払う必要性を示しており、セキュリティ問題は依然として懸念事項です。