OpenAI推出“封锁模式”安全设置,面向所有登录用户及工作区。该功能可限制ChatGPT的实时联网、深度研究和智能体等核心能力,防止模型发起外部网络请求,以降低敏感数据被提示注入攻击窃取的风险。用户和管理员可自主选择开启。
生成式人工智能向智能体时代发展,工具调用和联网能力增强,安全防御面临挑战。为应对提示注入攻击,OpenAI推出“封锁模式”安全设置,面向所有登录用户开放,旨在加强系统防护。
AI办公普及下,安全研究公司PromptArmor报告揭露,“ChatGPT for Google Sheets”浏览器扩展存在严重漏洞。核心是“间接提示词注入”攻击,恶意指令可跨账户定向窃取数据,警示职场人士注意数据安全。
微软Microsoft 365的AI助手Copilot Cowork被曝存在严重安全漏洞,攻击者通过“间接提示词注入”技术,在办公模板中植入恶意指令,无需用户批准即可窃取并外泄企业云盘机密文件,还能代替用户发送邮件、发布Teams消息,威胁组织数据安全。
codeintegrity-ai
ModernBERT PromptGuard是一个高性能二分类器,专门用于检测大语言模型应用中的恶意提示,包括提示注入和越狱攻击。
meta-llama
Llama Prompt Guard 2 是 Meta 推出的提示攻击检测模型系列,包含 86M 参数升级版和 22M 轻量版,用于检测大语言模型应用中的提示注入和越狱攻击。
Llama Prompt Guard 2 86M是一个用于检测提示注入和越狱攻击的文本分类模型,是Prompt Guard系列的第二代产品。
leolee99
InjecGuard是一款针对大型语言模型(LLM)的提示注入攻击防护模型,能有效识别并防御恶意指令,同时减少过度防御问题。
PIGuard是一种新型的提示防护模型,专门用于检测提示注入攻击。通过创新的训练策略显著减少对触发词的偏差,在多个基准测试中表现出色,超越现有最佳模型30.8%,为LLM安全提供强大的开源防护解决方案。
proventra
基于microsoft/mdeberta-v3-base微调的提示注入检测模型,整合多个数据集训练,用于识别恶意提示注入攻击。
dcarpintero
基于ModernBERT的轻量级模型,专注于识别恶意提示注入攻击,提供AI安全防护。
基于ModernBERT(大模型版)的轻量级模型,专用于识别恶意提示(即提示注入攻击)。
skshreyas714
Prompt Guard是一个用于检测提示攻击的文本分类模型,能够识别恶意提示注入和越狱行为。
testsavantai
TestSavantAI模型是一组经过微调的分类器,专门设计用于防御针对大型语言模型(LLM)的提示注入和越狱攻击。
TestSavantAI模型是一组专为防御大型语言模型(LLM)提示注入和越狱攻击而设计的分类器,微型版基于BERT-tiny架构,平衡安全性与计算效率。
GenTelLab
GenTel-Shield是一个专注于检测和防御提示词注入攻击的模型,能够有效区分恶意样本与良性样本。
PromptGuard是一个用于检测和防护LLM提示攻击的文本分类模型,能够识别恶意提示注入和越狱尝试。
protectai
这是 fmops/distilbert-prompt-injection 模型的 ONNX 格式转换版本,用于检测提示注入攻击。
这是deepset/deberta-v3-base-injection模型转换为ONNX格式的版本,用于检测提示注入攻击。
fmops
用于检测和防止提示注入攻击的数据集,支持多语言文本分析
AI包安全扫描工具,提供CLI和MCP服务器两种模式,可快速检测MCP服务器、AI技能和软件包中的漏洞、提示注入和供应链攻击
AI编码助手安全扫描器,通过MCP或CLI扫描代码漏洞、检测AI幻觉包、阻止提示注入攻击,支持12种语言和1700+安全规则
一个用于AI应用的双层安全网关,通过语义分析和静态模式匹配检测提示注入、越狱攻击及传统Web漏洞,保护AI代理免受恶意输入攻击。