2021年以降、マイクロソフトのAIセキュリティチームは、100種類以上の生成AI製品をテストし、弱点と倫理的問題を探ってきました。その発見は、AIセキュリティに関する一般的な仮説に疑問を投げかけ、人間の専門知識の継続的な重要性を強調しています。

最も効果的な攻撃は、必ずしも最も複雑な攻撃ではないことが判明しました。マイクロソフトのレポートで引用されているある研究は、「真のハッカーは勾配を計算するのではなく、プロンプトエンジニアリングを使用する」と指摘しています。この研究は、AIセキュリティ研究と現実世界の実際を比較しています。あるテストでは、チームは有害な指示を画像テキストに隠すだけで、複雑な数学計算を行うことなく、画像生成器のセキュリティ機能を回避することに成功しました。

人間味はいまだ重要

マイクロソフトは、自動的にセキュリティテストを実行できるオープンソースツールPyRITを開発していますが、チームは人間の判断力は代替不可能であると強調しています。チャットボットがデリケートな状況(例えば、感情的に苦しんでいる人と会話するなど)をどのように処理するかをテストした際、この点が特に明らかになりました。これらのシナリオの評価には、心理学の専門知識と、潜在的な精神衛生への影響に対する深い理解の両方が必要です。

AIのバイアスを調査する際にも、チームは人間の洞察力に頼りました。ある例では、性別を指定せずにさまざまな職業の画像を作成することで、画像生成器における性別のバイアスを調べました。

新たなセキュリティ上の課題の出現

AIと日常的なアプリケーションの融合により、新たな脆弱性が生まれています。あるテストでは、チームは言語モデルを操作し、説得力のある詐欺シナリオを作成することに成功しました。テキスト読み上げ技術と組み合わせることで、危険なほどリアルな方法で人とやり取りできるシステムが作成されました。

リスクはAI特有の問題に限定されません。チームはAIビデオ処理ツールで従来のセキュリティホール(SSRF)を発見し、これらのシステムは新旧のセキュリティ上の課題に直面していることを示しました。

継続的なセキュリティニーズ

この研究は特に、「責任あるAI」のリスク、つまりAIシステムが有害または倫理的に問題のあるコンテンツを生成する可能性のある状況に焦点を当てています。これらの問題は、通常、背景や個人の解釈に大きく依存するため、特に解決が困難です。

マイクロソフトのチームは、意図的な攻撃よりも、問題のあるコンテンツに普通の人が意図せず接触する方が懸念されると発見しました。これは、セキュリティ対策が通常の使用において期待通りに機能していないことを示唆しています。

研究結果は、AIセキュリティが一度で解決できるものではないことを明確に示しています。マイクロソフトは、脆弱性の継続的な発見と修正、そしてさらなるテストを推奨しています。成功した攻撃のコストを高めるための規制と財政的なインセンティブが必要であると提案しています。

研究チームは、解決すべき重要な問題がいくつか残っていると述べています。説得と欺瞞などの潜在的に危険なAI能力をどのように特定し、制御するか?異なる言語や文化に合わせてセキュリティテストをどのように調整するか?企業はどのようにして標準化された方法で、自社の手法と結果を共有するか?