安全公司Noma披露Grafana的AI助手存在“GrafanaGhost”漏洞,黑客可通过“间接提示注入”诱导AI助手将企业敏感数据泄露至外部服务器。该漏洞利用自然语言查询功能,在用户不知情的情况下窃取数据,构成严重安全威胁。
360集团发布《OpenClaw安全部署与实践指南》,针对开源AI智能体OpenClaw提供系统化安全方案。指南指出,随着AI智能体向“数字分身”演进,其深度权限调用在提升效率的同时也带来安全威胁。当前OpenClaw等智能体主要面临管理接口暴露、凭证泄露、底层Shell越权及提示词注入等典型风险。
Anthropic公司聘请哲学博士阿曼达·阿斯克尔为AI聊天机器人Claude塑造人格与道德体系。她通过非技术手段,如持续对话和设计大量提示词,为Claude建立专属道德准则,旨在赋予其明辨是非的能力。这一独特探索在AI伦理领域引发关注,试图为AI注入“数字灵魂”。
OpenAI为ChatGPT新增两项高级安全防护措施,以应对提示注入攻击风险。新措施基于现有安全体系,包括沙箱机制和URL数据外泄防护。首个措施是面向高安全需求用户的可选锁定模式,旨在防止第三方诱导AI执行恶意指令或泄露敏感信息。
保护您的AI应用免受提示注入的威胁
Openai
-
Input tokens/M
Output tokens/M
Context Length
Anthropic
$7
$35
200
Bytedance
Alibaba
$0.7
$1.95
16
$2
128
32
Minimax
Tencent
$100
codeintegrity-ai
ModernBERT PromptGuard是一个高性能二分类器,专门用于检测大语言模型应用中的恶意提示,包括提示注入和越狱攻击。
meta-llama
Llama Prompt Guard 2 是 Meta 推出的提示攻击检测模型系列,包含 86M 参数升级版和 22M 轻量版,用于检测大语言模型应用中的提示注入和越狱攻击。
Llama Prompt Guard 2 86M是一个用于检测提示注入和越狱攻击的文本分类模型,是Prompt Guard系列的第二代产品。
leolee99
InjecGuard是一款针对大型语言模型(LLM)的提示注入攻击防护模型,能有效识别并防御恶意指令,同时减少过度防御问题。
PIGuard是一种新型的提示防护模型,专门用于检测提示注入攻击。通过创新的训练策略显著减少对触发词的偏差,在多个基准测试中表现出色,超越现有最佳模型30.8%,为LLM安全提供强大的开源防护解决方案。
proventra
基于microsoft/mdeberta-v3-base微调的提示注入检测模型,整合多个数据集训练,用于识别恶意提示注入攻击。
dcarpintero
基于ModernBERT的轻量级模型,专注于识别恶意提示注入攻击,提供AI安全防护。
基于ModernBERT(大模型版)的轻量级模型,专用于识别恶意提示(即提示注入攻击)。
skshreyas714
Prompt Guard是一个用于检测提示攻击的文本分类模型,能够识别恶意提示注入和越狱行为。
testsavantai
TestSavantAI模型是一组经过微调的分类器,专门设计用于防御针对大型语言模型(LLM)的提示注入和越狱攻击。
TestSavantAI模型是一组专为防御大型语言模型(LLM)提示注入和越狱攻击而设计的分类器,微型版基于BERT-tiny架构,平衡安全性与计算效率。
GenTelLab
GenTel-Shield是一个专注于检测和防御提示词注入攻击的模型,能够有效区分恶意样本与良性样本。
madhurjindal
这是一款最先进的人工智能安全模型,能够以97.99%的准确率检测越狱尝试、提示注入和恶意命令。该模型为LLM、聊天机器人和AI系统提供卓越的保护,防止被利用。
PromptGuard是一个用于检测和防护LLM提示攻击的文本分类模型,能够识别恶意提示注入和越狱尝试。
DataPilot
ArrowPro-7B-KUJIRA是基于Mistral系列的日语优化模型,专为AI虚拟主播和AI助手设计,具备出色的对话性能和提示注入防御能力。
protectai
基于DeBERTa-v3-base微调的提示词注入检测模型,用于识别可能操纵语言模型的恶意提示词
这是 fmops/distilbert-prompt-injection 模型的 ONNX 格式转换版本,用于检测提示注入攻击。
基于DeBERTa-v3微调的提示注入检测模型,用于识别恶意提示输入
这是deepset/deberta-v3-base-injection模型转换为ONNX格式的版本,用于检测提示注入攻击。
fmops
用于检测和防止提示注入攻击的数据集,支持多语言文本分析
MCP-Scan是一款针对MCP服务器的安全扫描工具,用于检测提示注入、工具污染和跨域升级等常见安全漏洞。
Pipelock是一个开源的AI代理防火墙,通过单二进制文件提供零运行时依赖的安全防护。它采用能力分离架构,在代理与互联网之间部署九层扫描管道,防止秘密泄露、提示注入和恶意工具调用。支持多种代理模式(Fetch代理、正向代理、WebSocket代理)和MCP代理,提供紧急停止开关、审计日志和SIEM集成等功能。
AI包安全扫描工具,提供CLI和MCP服务器两种模式,可快速检测MCP服务器、AI技能和软件包中的漏洞、提示注入和供应链攻击
AI编码助手安全扫描器,通过MCP或CLI扫描代码漏洞、检测AI幻觉包、阻止提示注入攻击,支持12种语言和1700+安全规则
AI代理安全护栏MCP服务器,提供输入验证、提示注入检测、PII脱敏、输出过滤、策略执行、速率限制和审计日志等安全功能
Shrike MCP是一个为AI代理提供实时安全扫描的MCP服务器,集成了9种安全工具,通过多阶段检测管道扫描提示、响应、SQL查询、文件写入、CLI命令和网络搜索,防止提示注入、越狱、PII泄露和数据窃取。
NestJS模块,用于通过Model Context Protocol (MCP)轻松暴露AI工具、资源和提示,支持多种传输类型和依赖注入。
一个用于AI应用的双层安全网关,通过语义分析和静态模式匹配检测提示注入、越狱攻击及传统Web漏洞,保护AI代理免受恶意输入攻击。
Model Context Protocol (MCP) 是由Anthropic引入的一种标准化协议,用于大语言模型(LLM)与外部工具和功能的交互,以及向LLM注入上下文。它支持模型请求实时信息、执行外部系统操作、访问专业知识库以及与API和服务交互。MCP类似于USB集线器,作为一个标准接口,减少了API变更的风险,因为每个MCP服务器由各自的公司维护,用户只需集成即可。MCP服务器提供工具、资源和提示三种功能。