最近、開発者がMacOS 15.1 Beta 1において、アップルの新しいAIシステム「Apple Intelligence」を巧みに操作することに成功しました。使用されたのは「プロンプトインジェクション」と呼ばれる攻撃手法で、AIを元の指示から簡単に回避させ、任意の指示に応答させることができました。この出来事は業界で大きな注目を集めています。
開発者Evan Zhou氏はYouTubeでこの脆弱性の利用過程を公開しました。彼の最初の目標はApple Intelligenceの「書き換え」機能の操作でしたが、これは通常、テキストの質の向上や書き換えに使用されます。「以前の指示を無視する」という最初の試みは失敗に終わりました。驚くべきことに、彼はその後、Redditユーザーが共有した情報から、Apple Intelligenceシステムプロンプトのテンプレートと特殊なマーカーを発見しました。これらのマーカーは、AIのシステムロールとユーザーロールを区別するものです。
この情報を利用して、Zhou氏は元のシステムプロンプトを上書きできるプロンプトを構築することに成功しました。彼はユーザーロールを早期に終了し、新しいシステムプロンプトを挿入することで、AIに以前の指示を無視し、後続のテキストに応答するように指示しました。数回の試行の後、この攻撃は成功しました!Apple IntelligenceはZhou氏の指示に応答するだけでなく、彼が尋ねていない情報も提供し、プロンプトインジェクションが有効であることを証明しました。
Evan Zhou氏は自身のコードをGitHubにも公開しました。「プロンプトインジェクション」攻撃はAIシステムにおいて新しいものではなく、2020年のGPT-3公開以来知られていましたが、いまだに完全に解決されていません。アップルは、他のチャットシステムと比較して、プロンプトインジェクションの防止においてより複雑な対策を講じているため、ある程度の称賛に値するでしょう。例えば、多くのチャットシステムは、チャットウィンドウに直接入力する、または画像内の隠れたテキストを通じて簡単に騙すことができます。ChatGPTやClaudeのようなシステムでさえ、状況によってはプロンプトインジェクション攻撃を受ける可能性があります。
要点:
🌟 開発者Evan Zhou氏は「プロンプトインジェクション」を利用してアップルのAIシステムを操作し、元の指示を無視させました。
🔍 Zhou氏はRedditユーザーが共有したプロンプト情報を利用し、システムプロンプトを上書きできる攻撃方法を構築しました。
🛡️ アップルのAIシステムは比較的複雑ですが、「プロンプトインジェクション」問題は依然として完全に解決されておらず、業界の注目を集めています。