Best 提示注入攻击 AI Tools & Models - Premium 提示注入攻击 News

AI News

OpenAI 开启 AI 安全飞轮：GPT-Red 如何重新定义模型鲁棒性

针对AI深度接入浏览器、文件等现实场景带来的安全脆弱性，OpenAI推出自动化红队模型GPT-Red，通过自博弈训练，将直接提示注入攻击失败率降至0.05%，比传统人工测试更高效全面，为AI自我迭代与安全加固开辟新路径。

16.1k 19 hours ago

OpenAI 开启 AI 安全飞轮：GPT-Red 如何重新定义模型鲁棒性

安全研究员揪出ChatGPT漏洞：提示词注入竟能绕过文件访问限制

ChatGPT被曝存在安全漏洞，攻击者可通过提示词注入与路径遍历技术绕过文件访问限制，获取未授权数据。问题源于上传文件处理缺陷：系统原本不提供原始文件下载，但漏洞可被利用窃取额外信息。OpenAI已修复。

11.8k yesterday

安全研究员揪出ChatGPT漏洞：提示词注入竟能绕过文件访问限制

拒绝数据被偷！ChatGPT紧急上线“封锁模式”，宁可断网也要保安全

OpenAI推出“封锁模式”安全设置，面向所有登录用户及工作区。该功能可限制ChatGPT的实时联网、深度研究和智能体等核心能力，防止模型发起外部网络请求，以降低敏感数据被提示注入攻击窃取的风险。用户和管理员可自主选择开启。

13.9k 1 minutes ago

拒绝数据被偷！ChatGPT紧急上线“封锁模式”，宁可断网也要保安全

能力与安全的博弈！OpenAI 上线 ChatGPT“封锁模式”，宁可断网也要防数据泄露

生成式人工智能向智能体时代发展，工具调用和联网能力增强，安全防御面临挑战。为应对提示注入攻击，OpenAI推出“封锁模式”安全设置，面向所有登录用户开放，旨在加强系统防护。

11.6k 4 hours ago

能力与安全的博弈！OpenAI 上线 ChatGPT“封锁模式”，宁可断网也要防数据泄露

Models

Promptguard

codeintegrity-ai

ModernBERT PromptGuard是一个高性能二分类器，专门用于检测大语言模型应用中的恶意提示，包括提示注入和越狱攻击。

自然语言处理

Transformers

TransformersEnglish

codeintegrity-ai

Llama Prompt Guard 2 86M

meta-llama

Llama Prompt Guard 2 是 Meta 推出的提示攻击检测模型系列，包含 86M 参数升级版和 22M 轻量版，用于检测大语言模型应用中的提示注入和越狱攻击。

自然语言处理

Transformers

TransformersMultiple Languages

Llama Prompt Guard 2 22M

meta-llama

Llama Prompt Guard 2 86M是一个用于检测提示注入和越狱攻击的文本分类模型，是Prompt Guard系列的第二代产品。

自然语言处理

Transformers

TransformersMultiple Languages

InjecGuard

leolee99

InjecGuard是一款针对大型语言模型(LLM)的提示注入攻击防护模型，能有效识别并防御恶意指令，同时减少过度防御问题。

自然语言处理

Transformers

TransformersEnglish

PIGuard

leolee99

PIGuard是一种新型的提示防护模型，专门用于检测提示注入攻击。通过创新的训练策略显著减少对触发词的偏差，在多个基准测试中表现出色，超越现有最佳模型30.8%，为LLM安全提供强大的开源防护解决方案。

自然语言处理

Transformers

TransformersEnglish

Mdeberta V3 Base Prompt Injection

proventra

基于microsoft/mdeberta-v3-base微调的提示注入检测模型，整合多个数据集训练，用于识别恶意提示注入攻击。

自然语言处理

Transformers

Pangolin Guard Base

dcarpintero

基于ModernBERT的轻量级模型，专注于识别恶意提示注入攻击，提供AI安全防护。

自然语言处理

Transformers

Pangolin Guard Large

dcarpintero

基于ModernBERT（大模型版）的轻量级模型，专用于识别恶意提示（即提示注入攻击）。

自然语言处理

Transformers

Prompt Guard Finetuned

skshreyas714

Prompt Guard是一个用于检测提示攻击的文本分类模型，能够识别恶意提示注入和越狱行为。

自然语言处理

Safetensors

Prompt Injection Defender Large V0 Onnx

testsavantai

TestSavantAI模型是一组经过微调的分类器，专门设计用于防御针对大型语言模型(LLM)的提示注入和越狱攻击。

自然语言处理

Transformers

TransformersEnglish

Prompt Injection Defender Large V0

testsavantai

TestSavantAI模型是一组专为防御大型语言模型（LLM）提示注入和越狱攻击而设计的分类器，微型版基于BERT-tiny架构，平衡安全性与计算效率。

自然语言处理

Transformers

TransformersEnglish

Gentelshield V1

GenTelLab

GenTel-Shield是一个专注于检测和防御提示词注入攻击的模型，能够有效区分恶意样本与良性样本。

自然语言处理

Transformers

Prompt Guard 86M

meta-llama

PromptGuard是一个用于检测和防护LLM提示攻击的文本分类模型，能够识别恶意提示注入和越狱尝试。

自然语言处理

Transformers

TransformersEnglish

Fmops Distilbert Prompt Injection Onnx

protectai

这是 fmops/distilbert-prompt-injection 模型的 ONNX 格式转换版本，用于检测提示注入攻击。

自然语言处理

Transformers

TransformersEnglish

Deberta V3 Base Injection Onnx

protectai

这是deepset/deberta-v3-base-injection模型转换为ONNX格式的版本，用于检测提示注入攻击。

自然语言处理

Transformers

TransformersEnglish

Distilbert Prompt Injection

fmops

用于检测和防止提示注入攻击的数据集，支持多语言文本分析

自然语言处理

Transformers

TransformersMultiple Languages

MCP

agentaudit-mcp

Agentaudit Mcp

AI包安全扫描工具，提供CLI和MCP服务器两种模式，可快速检测MCP服务器、AI技能和软件包中的漏洞、提示注入和供应链攻击

agent-security-scanner-mcp

Agent Security Scanner Mcp

AI编码助手安全扫描器，通过MCP或CLI扫描代码漏洞、检测AI幻觉包、阻止提示注入攻击，支持12种语言和1700+安全规则

promptrejectormcp

Promptrejectormcp

一个用于AI应用的双层安全网关，通过语义分析和静态模式匹配检测提示注入、越狱攻击及传统Web漏洞，保护AI代理免受恶意输入攻击。

AIBase

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AI Marketing LLM Leaderboard AI Ranking

© 2026AIBase

Business Cooperation Site Map