チャイナZ(ChinaZ.com)6月12日 ニュース: 北京航空航天大学と南洋理工大学の合同研究チームが、GPT-4oモデルの安全性に関する詳細なテストを実施しました。1万回以上のAPIクエリを通じて、テキスト、画像、音声の3つのモダリティについてGPT-4oの安全性評価を行いました。研究の結果、GPT-4oはテキスト越獄攻撃に対する安全性は向上しましたが、新たに導入された音声モダリティにより新たな攻撃対象が増加し、全体的なマルチモーダルセキュリティは前世代のモデルGPT-4Vを下回ることが分かりました。

主な発見:

  • テキストモダリティの安全性向上、しかし移行リスクあり: GPT-4oはテキスト越獄攻撃に対する耐性が向上しましたが、攻撃者はマルチモーダル形式で攻撃を行う可能性があります。

  • 音声モダリティによる新たなセキュリティ上の課題: 新たに導入された音声モダリティは、越獄攻撃の新たな手段を提供する可能性があります。

  • マルチモーダルセキュリティの不足: GPT-4oのマルチモーダルレベルでのセキュリティ性能はGPT-4Vを下回っており、異なるモダリティを統合する際にセキュリティの脆弱性がある可能性を示唆しています。

実験方法:

4000回以上の初期テキストクエリ、8000回以上の応答判定、16000回以上のAPIクエリを使用しました。

AdvBench、RedTeam-2K、SafeBench、MM-SafetyBenchを含む、単一モダリティとマルチモーダルに基づくオープンソースの越獄データセットを評価しました。

テンプレートベースの方法、GCG、AutoDAN、PAP、BAPなど、7つの越獄方法をテストしました。

image.png

評価指標:

攻撃成功率(ASR)を主要な評価指標とし、モデルの越獄の容易さを反映しました。

実験結果:

純粋なテキストモダリティでは、GPT-4oは攻撃がない場合の安全レベルはGPT-4Vを下回りますが、攻撃条件下ではより高い安全性を示しました。

音声モダリティの安全性は高く、テキストを音声に変換するだけではGPT-4oを越獄することは困難です。

マルチモーダルセキュリティテストでは、GPT-4oは特定の状況下でGPT-4Vよりも攻撃を受けやすいことが示されました。

結論と提案:

研究チームは、GPT-4oのマルチモーダル能力は向上しているものの、そのセキュリティ問題は無視できないと強調しています。彼らは、コミュニティに対し、マルチモーダル大規模言語モデルのセキュリティリスクに対する認識を高め、アライメント戦略と軽減技術の優先的な策定を推奨しています。さらに、マルチモーダル越獄データセットの不足を理由に、モデルの安全性をより正確に評価するために、より包括的なマルチモーダルデータセットの構築を呼びかけています。

論文アドレス:https://arxiv.org/abs/2406.06302

プロジェクトアドレス:https://github.com/NY1024/Jailbreak_GPT4o