最新研究揭示了一种新的方法,允许一个大型语言模型被用于越狱另一个,以揭示潜在的安全漏洞。该算法成功越狱了GPT-3.5和GPT-4的60%的设置,甚至在一些情况下只需要几十个查询,平均运行时间约为五分钟。PAIR的对抗性提示的语义性质,使得企业能够识别和修复LLMs中的漏洞,标志着LLMs作为优化器的新趋势。