研究者らが新たなLLM脱獄手法を開発、成功率65%
先日、サイバーセキュリティ企業Palo Alto NetworksのUnit42研究チームが注目すべき研究を発表し、「Deceptive Delight」と呼ばれる新たな脱獄手法を明らかにしました。この手法はわずか2〜3回のやり取りで、大規模言語モデル(LLM)に有害なコンテンツの生成を誘導することに成功し、その成功率は65%にも上ります。この発見は、LLMのセキュリティ保護に警鐘を鳴らしています。画像注記:画像はAI生成、画像ライセンスサービスより