近期,斯坦福大学和香港大学的研究人员发现,当前的 AI Agent(如 Claude)比人类更容易受到弹窗干扰,甚至在面对简单的弹窗时,它们的表现大幅下降。根据研究,AI Agent 在实验环境中面对设计好的弹窗时,平均攻击成功率达到86%,并使得任务成功率降低了47%。这一发现引发了对 AI Agent 安全性的新关注,尤其是在它们被赋予更多自主执行任务的能力时。在这项研究中,科学家们设计了一系列对抗性弹窗,目的是测试 AI Agent 的反应能力。研究表明,尽管人类可以识别并忽略这些弹窗,但 A
["神经网络由于自身的特点容易受到对抗性攻击","谷歌DeepMind的最新研究表明,人类的判断也会受到这种对抗性扰动的影响","人类的神经网络和人工神经网络的关系是什么?","研究表明,我们之前的这种看法可能是错误的!","人类的判断也会受到这种对抗性扰动的影响"]
["随着LLM应用日益广泛,提升其安全性迫在眉睫","提示词攻击直接影响LLM执行准确性与系统安全性","介绍众多对抗性提示词攻击手段实例","红队演练可增强LLM对抗攻击能力","用户应提高网络安全防范意识"]
["富士通宣布推出两项新的人工智能信任技术,旨在提高对话型人工智能模型的可靠性,包括检测幻觉和对抗性攻击的技术。","这些技术将整合到富士通的人工智能平台“Kozuchi”中,旨在为企业和个人用户提供工具,评估对话型人工智能回复的可靠性,增强人工智能的安全性。","第一项技术旨在高度精确地检测对话型人工智能回复中的幻觉,解决了回复中可能存在的误导问题。","第二项技术用于检测对话型人工智能回复中的植入网络钓鱼网址,以提高回复的安全性。"]
zer0int
基于稀疏自编码器(SAE)微调的CLIP模型,在零样本图像分类任务中表现优异,尤其擅长对抗性排版攻击识别
chs20
基于CLIP模型的鲁棒感知度量模型,通过对抗性微调提升对抗攻击下的性能