字节跳动大模型团队研究员任某某因多次泄露公司保密信息被辞退。他在知乎拥有8万粉丝,曾频繁发布内部研发细节,引发关注并导致公司纪律审查。高调分享最终酿成职业危机。
国家广电总局宣布,2026年3月起全面整治AI生成内容,将恶搞短剧等纳入审核范围,开展专项治理行动。此举旨在规范AI动画领域,应对技术发展带来的内容管理挑战。
360发布国内首份《大模型安全白皮书》,揭示大模型在金融、政务等关键领域应用中的五大核心风险,提出“外挂式安全+平台原生安全”双轨治理框架,为AI安全构建纵深防御体系。
百度电商“优选”品牌运用大模型技术优化风控审核,实现全机审、即时反馈和高可解释性,解决了传统人工审核效率低、响应慢的问题,提升了电商安全与用户体验。
AgentSphere是一个AI本地云基础设施,用于安全的LLM代码执行。
North 是一个安全的 AI 工作空间,结合了 LLM、搜索和自动化,提升工作效率。
科学测试LLM提示,确保其健壮性、可靠性和安全性。
医疗保健行业的首个安全导向的LLM
openai
$0.36
输入tokens/百万
$2.88
输出tokens/百万
400k
上下文长度
Mungert
gpt-oss-safeguard-20b是基于GPT-OSS-20b微调的安全推理模型,专门用于大语言模型输入输出过滤、在线内容标注以及信任与安全用例的离线标注。该模型采用Apache 2.0许可证,支持自定义策略和透明决策过程。
unsloth
GPT-OSS-Safeguard-20B是基于GPT-OSS构建的210亿参数安全推理模型,专门针对安全相关的文本内容分类和过滤任务进行优化。该模型支持自定义安全策略,提供透明的推理过程,适用于大语言模型输入输出过滤、在线内容标注等安全用例。
neuphonic
NeuTTS Air是世界上首个具备即时语音克隆功能的超逼真、端侧文本转语音(TTS)语言模型。基于0.5B参数的大语言模型骨干构建,能为本地设备带来自然的语音、实时性能、内置安全性和说话人克隆功能。
gpt-oss-safeguard-20b是基于gpt-oss构建的安全推理模型,拥有210亿参数(其中36亿为活跃参数),专门针对安全用例设计。该模型可根据提供的安全策略对文本内容进行分类,并执行基础安全任务,适用于大语言模型输入输出过滤、在线内容标注等场景。
gpt-oss-safeguard-120b是基于gpt-oss构建的安全推理模型,专门为安全用例设计。该模型能够根据提供的安全策略对文本内容进行分类,并执行一系列基础安全任务,适用于大语言模型输入输出过滤、在线内容标注等场景。
NeuTTS Air是世界上首个具备即时语音克隆功能的超逼真、设备端文本转语音(TTS)语言模型。基于0.5B大语言模型骨干网络构建,能为本地设备带来自然的语音、实时性能、内置安全功能和说话人克隆能力。
quelmap
Lightning-4b 是一款专为本地设备数据分析任务设计和训练的语言模型,可在配备16GB内存的笔记本电脑上流畅运行,无需将数据发送给大型语言模型提供商,确保数据隐私和安全。
Roblox
RoGuard 1.0 是一款基于Llama-3.1-8B-Instruct微调的大语言模型,专注于提升文本生成API的安全性。
RoGuard 1.0 是一款基于 Llama-3.1-8B-Instruct 微调的先进大语言模型,专门用于为大语言模型提供安全保障。它能够在提示和回复两个层面进行安全分类,判断输入或输出是否违反安全政策,为文本生成API提供强大的安全护栏。
Roblox Guard 1.0是一款基于Llama-3.1-8B-Instruct微调的最先进指令微调大语言模型,专门设计用于保护文本生成API的安全。它能够在提示词和回复层面进行双级安全分类,有效审核用户查询和模型输出,确保内容符合安全政策。
tomg-group-umd
DynaGuard-8B是由马里兰大学和第一资本开发的80亿参数守护者模型,能够根据用户定义的自然语言策略评估文本合规性,提供灵活的内容审核解决方案,在安全和合规基准测试中达到先进水平。
sds-ai
小熠是由广州熠数信息技术有限公司开发的专注于数据安全领域的AI专家系统,基于Qwen3-1.7B大语言模型构建,提供数据分类分级、安全审计、防护检测等专业能力。
基于Mergekit融合的8B网络安全大语言模型,融合了安全专业知识与多语言能力
AlicanKiraz0
由 Alican Kiraz 基于 Qwen QwQ-32B 微调的安全领域大语言模型,专注于网络安全相关任务
由Alican Kiraz基于Qwen QwQ-32B微调的安全领域大语言模型,专注于信息安全相关任务生成
meta-llama
Llama Guard 4 是一个原生多模态安全分类器,拥有120亿参数,联合训练于文本和多重图像,用于大语言模型输入和输出的内容安全评估。
clouditera
全球首个网络安全开源大模型,专为网络安全场景打造,融合自然语言理解、代码生成、安全知识推理等核心能力。
mradermacher
Beaver-7B-v3.0 是一个基于 LLaMA 架构的 7B 参数大语言模型,专注于安全性和人类反馈强化学习(RLHF)。
ibm-research
IBM Research开发的风险检测大语言模型,基于Granite 3.2 30亿参数模型微调,专门用于检测提示和响应中的各类风险,为企业应用提供安全防护。
基于Qwen QwQ-32B微调的安全领域大语言模型,专注于信息安全相关任务
FastApply MCP Server是一个企业级代码智能平台,通过本地AI模型、AST语义搜索、安全扫描和智能模式识别,提供全面的代码分析、搜索和重构能力,支持多语言开发和大规模代码库处理。
HAL是一个为大型语言模型提供HTTP API能力的MCP服务器,支持通过安全接口进行网络请求和OpenAPI规范自动生成工具。
GUARDRAIL是一个专为大型语言模型(LLM)应用生态系统设计的安全框架,特别针对模型上下文协议(MCP)提供全面保护。它采用多层架构,包括信息网关层、上下文验证层、请求控制层、执行隔离层和审计监控层,旨在防止数据泄露、未授权访问和资源滥用。该框架强调渐进式采用,允许开发者逐步增强安全性,同时保持高性能和易用性。
Model Context Protocol (MCP) 是一个开源协议,提供了一系列参考实现和社区构建的服务器,使大型语言模型(LLMs)能够安全、可控地访问工具和数据源。该项目包含多种功能服务器实现,涵盖文件系统、数据库、搜索、API集成等领域,并支持TypeScript和Python SDK开发。
MCP Firebird是一个为Firebird数据库实现Anthropic模型上下文协议(MCP)的服务,允许大型语言模型如Claude安全地访问和分析数据库内容。
该项目是一个为Metasploit框架设计的MCP服务器,提供大语言模型与渗透测试平台的集成接口,支持通过自然语言控制复杂的安全测试流程。
MetaMask MCP是一个模型上下文协议服务器,允许大型语言模型通过MetaMask与区块链交互,确保私钥安全存储在用户钱包中,不与AI代理共享。
SMCP Proxy是一个为Model Context Protocol (MCP)服务设计的反向代理,提供OIDC认证的安全层,支持企业级认证和授权,简化与大型语言模型(LLM)的标准化交互。
ChuckNorris MCP服务器是一个专为大型语言模型设计的增强提示工具,采用动态模式适应技术来绕过安全限制,主要用于安全研究和评估目的。
该项目是一个Metasploit框架的MCP服务器,为大型语言模型(如Claude)与Metasploit渗透测试平台之间提供桥梁,支持通过自然语言接口控制复杂的安全测试工作流。
该项目是一个专为大型语言模型(LLMs)和其他AI代理设计的服务器工具,用于安全地与电子健康记录(EHRs)交互。它通过SMART on FHIR标准实现安全数据访问,并利用模型上下文协议(MCP)提供工具集,作为AI与多样化EHR系统之间的安全网关和工具包。
Container-MCP是一个基于容器的安全工具执行平台,为大型语言模型提供隔离环境运行代码、命令和网络操作,实现MCP协议的安全实现。
n8n MCP服务器是一个通过Model Context Protocol提供n8n工作流、执行、凭证等访问的服务,使大语言模型能安全标准化地与n8n实例交互。
Model Context Protocol (MCP) 是一个开源协议,提供了一系列参考实现和社区开发的服务器,旨在为大型语言模型(LLM)提供安全、可控的工具和数据源访问。这些服务器展示了MCP的多样性和可扩展性,涵盖了从文件系统操作到数据库集成、从网络搜索到AI图像生成等多种功能。
Model Context Protocol (MCP) 是一个开源协议,提供了一系列参考实现和社区开发的服务器,用于为大型语言模型(LLM)提供安全、受控的工具和数据源访问。该项目包含多种功能服务器,如文件系统操作、Git集成、数据库访问等,并支持通过TypeScript和Python SDK快速开发新服务。
Zyla API Hub MCP服务器是一个通用API调用工具,允许大型语言模型通过MCP协议访问Zyla API Hub上的任何公共API,支持多种HTTP方法和安全认证。
Git MCP Server是一个基于Model Context Protocol的Git功能服务端,为大型语言模型提供安全的版本控制操作接口,支持核心Git操作、批量处理和安全管理。
MCP Server Govbox是一个连接大型语言模型(LLMs)和Rake任务的中间件服务器,使用Go语言开发,通过标准化接口让LLMs能安全执行Rake命令,支持多项目管理和错误处理。
该项目实现了一个基于MCP协议的CRM-AI服务中间层,提供数据安全处理、智能对话管理和潜在客户分析功能,通过匿名化技术和令牌系统保护敏感数据,同时支持与大型语言模型的集成。