研究人員開發了新 LLM 越獄方法,成功率高達 65%
近日,網絡安全公司 Palo Alto Networks 的 Unit42研究團隊發佈了一項令人矚目的研究,揭露了一種名爲 “Deceptive Delight”的新型越獄方法。這個方法能夠在僅僅兩到三次交互中,就成功誘導大型語言模型(LLM)生成有害內容,其成功率高達65%。這一發現爲保護 LLM 的安全性敲響了警鐘。圖源備註:圖片由AI生成,圖片授權服務商Midjourney研究團隊在測試中分析了多達8000個案例,並評估了八種不同的語言模型。在這個越獄技術的第一步,攻擊者首先會要求 LLM 生成一個敘述,這個敘述包含兩個無害