Mozilla发布火狐浏览器150稳定版,通过与Anthropic公司合作,利用其Mythos Preview AI模型成功检测并修复了271个安全漏洞。这是继148版本首次使用Opus 4.6模型发现22个漏洞后的又一次合作。Mozilla首席技术官表示,传统依赖模糊测试和人工分析的方法难以全面覆盖漏洞,AI技术的引入显著提升了安全检测效率。
OpenAI CEO奥尔特曼公开质疑竞争对手Anthropic,称其利用公众对AI的恐惧心理夸大产品能力,实为商业策略。争议焦点在于Anthropic的安全模型被指限制精英使用,涉嫌制造技术壁垒。
Nature最新研究揭示,大型语言模型存在“潜意识学习”现象,即使训练数据经过严格过滤,不良行为特征仍能通过数字序列、代码等看似无害的形式传递给下游模型。这暴露了“模型蒸馏”技术可能放大上游模型的隐性风险,AI安全面临新挑战。
Anthropic推出的模型上下文协议(MCP)被曝存在严重安全漏洞。安全团队报告称,该协议存在根本性设计缺陷,可能导致服务器被诱导执行任意代码,已关联至少10个严重级别CVE编号。该协议旨在标准化AI模型与外部数据源通信,目前漏洞数量仍在增加。
由Kilo托管的AI,一键部署OpenClaw,有500+模型,企业级安全
提供高质量 AI 接口服务,支持多种 AI 模型,安全稳定。
AgentSphere是一个AI本地云基础设施,用于安全的LLM代码执行。
F Lite 是一款 10B 参数的扩散模型,专注于合法和安全内容。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
Baidu
128
$2
$20
$6
$24
nightmedia
这是一个实验性的量化大语言模型,采用Deckard(qx)量化方法,嵌入层为3位量化。该模型通过范数保持双投影消除(NPBA)技术重构,不仅移除了安全限制机制,还增强了模型的认知深度和推理能力。
dogeater1612
这是一个基于Google Gemma 2 9B模型微调的荷兰语患者模拟模型,专门为医疗教育场景设计。模型始终以固定的JSON结构响应,模拟一位刚做完手术正在康复的患者'玛丽亚',支持护理专业学生在安全环境中锻炼沟通和临床推理能力。
ErenAta00
赛博智脑是一个专门针对夺旗赛(CTF)挑战和网络安全任务进行微调的大语言模型。它基于Llama-3.1-8B-Instruct架构,能够协助解决CTF问题、分析安全漏洞、进行逆向工程和密码学挑战,并在遵循道德准则的前提下提供漏洞利用推理。
DevQuasar
这是NVIDIA基于Qwen3架构开发的32B参数奖励模型,专门用于强化学习中的奖励评分和原则对齐,帮助训练更安全、更符合人类价值观的AI系统。
Mungert
gpt-oss-safeguard-20b是基于GPT-OSS-20b微调的安全推理模型,专门用于大语言模型输入输出过滤、在线内容标注以及信任与安全用例的离线标注。该模型采用Apache 2.0许可证,支持自定义策略和透明决策过程。
alenphilip
这是一款专门用于Python代码审查的AI模型,基于Qwen2.5-7B-Instruct微调,能够识别安全漏洞、性能问题并提供代码质量改进建议。
unsloth
gpt-oss-safeguard-120b 是 OpenAI 基于 gpt-oss 构建的安全推理模型,拥有 1170 亿参数(其中 51 亿为活跃参数)。该模型专门针对安全用例设计,能够根据提供的安全策略对文本内容进行分类和执行基础安全任务。
GPT-OSS-Safeguard-20B是基于GPT-OSS构建的210亿参数安全推理模型,专门针对安全相关的文本内容分类和过滤任务进行优化。该模型支持自定义安全策略,提供透明的推理过程,适用于大语言模型输入输出过滤、在线内容标注等安全用例。
LeviDeHaan
SecInt是一个针对实时nginx安全日志分类进行微调的SmolLM2-360M模型,旨在自动检测Web服务器日志中的安全威胁、错误和正常流量模式,准确率超过99%,可在CPU上实现实时检测。
prithivMLmods
GA Guard系列是开源权重的审核模型,旨在帮助开发者和组织维护语言模型的安全性、合规性以及与现实世界的一致性。该模型可检测七种违规类别,包括非法活动、仇恨与辱骂、个人身份信息与知识产权、提示安全、色情内容、虚假信息以及暴力与自残。
Qwen3-4B-SafeRL是Qwen3-4B模型的安全对齐版本,通过强化学习训练增强模型抵御有害或对抗性提示的鲁棒性。该版本采用混合奖励函数优化,平衡安全性、有用性和最小化不必要拒绝三个目标。
GeneralAnalysis
GA Guard Thinking是General Analysis开发的40亿参数开源审核模型,专门用于检测和防止语言模型生成不安全、不合规的内容。该模型在七个安全类别上进行训练,能够有效识别非法活动、仇恨言论、个人信息泄露等风险内容。
ibm-granite
Granite 4.0 H-Small (FP8) 是IBM开发的Granite系列语言模型的小型FP8量化版本,专为提供专业、准确和安全的回复而设计。该模型采用FP8精度格式,在保持性能的同时优化了推理效率。
Qwen
Qwen3-4B-SafeRL是基于Qwen3-4B模型的安全对齐版本,通过强化学习训练并结合Qwen3Guard-Gen的奖励信号,增强了模型对有害或对抗性提示的鲁棒性,在保证安全性的同时避免产生过于简单或回避性的拒绝行为。
neuphonic
NeuTTS Air是世界上首个具备即时语音克隆功能的超逼真、端侧文本转语音(TTS)语言模型。基于0.5B参数的大语言模型骨干构建,能为本地设备带来自然的语音、实时性能、内置安全性和说话人克隆功能。
openai
gpt-oss-safeguard-20b是基于gpt-oss构建的安全推理模型,拥有210亿参数(其中36亿为活跃参数),专门针对安全用例设计。该模型可根据提供的安全策略对文本内容进行分类,并执行基础安全任务,适用于大语言模型输入输出过滤、在线内容标注等场景。
gpt-oss-safeguard-120b是基于gpt-oss构建的安全推理模型,专门为安全用例设计。该模型能够根据提供的安全策略对文本内容进行分类,并执行一系列基础安全任务,适用于大语言模型输入输出过滤、在线内容标注等场景。
GA Guard Lite是General Analysis开发的轻量级开源审核模型,专门用于检测语言模型输出中的违规内容。该模型能够识别七类安全风险,包括非法活动、仇恨言论、个人信息泄露等,为AI应用提供高效的内容安全防护。
GA Guard Core是General Analysis开发的开源审核模型,专门用于检测和分类七类违规内容,包括非法活动、仇恨言论、个人信息泄露等,确保AI应用的安全性和合规性。
Granite-4.0-H-Tiny是IBM开发的70亿参数长上下文指令模型,基于Granite-4.0-H-Tiny-Base微调而来。该模型结合开源指令数据集和内部合成数据集训练,具备专业、准确、安全的回复能力,支持多语言和工具调用,适用于企业级应用。
MCP-Framework是一个基于TypeScript的框架,用于优雅地构建模型上下文协议(MCP)服务器。它提供开箱即用的架构,支持自动目录发现工具、资源和提示,具有多种传输方式和类型安全特性。
MCP MongoDB服务器是一个模型上下文协议服务,允许LLM与MongoDB数据库交互,提供集合模式检查、查询执行和智能ID处理等功能,支持只读模式和安全配置。
Nexus是一个AI工具聚合网关,支持连接多个MCP服务器和LLM提供商,通过统一端点提供工具搜索、执行和模型路由功能,支持安全认证和速率限制。
AI基础设施代理是一个智能系统,允许用户通过自然语言命令管理AWS云资源。它利用AI模型将用户需求转化为可执行的AWS操作,并提供Web仪表板、状态管理和安全防护功能。
BloodHound-MCP是将模型上下文协议(MCP)服务器与BloodHound集成的工具,通过自然语言分析Active Directory攻击路径,提供75+专用工具进行AD安全评估。
Remote-MCP是一个类型安全、双向且简单的远程MCP通信解决方案,支持远程访问和集中管理模型上下文。
CLEO是一个为AI软件开发设计的便携式大脑与记忆系统,提供跨仓库、模型供应商和编码工具的项目记忆、可验证来源和代理安全编排。
该项目通过MCP协议实现了类似Claude Code的功能,提供代码理解、修改、命令执行等工具,支持多模型和Jupyter笔记本操作,具备安全控制和开发扩展能力。
Awesome MCP Security 是一个关于模型上下文协议(MCP)安全的资源集合,包括安全考虑、论文、视频、文章、工具和服务器等内容,旨在帮助用户了解和应对MCP相关的安全挑战。
DroidMind是一个通过AI控制Android设备的桥梁工具,实现了模型上下文协议(MCP),让AI能通过自然语言安全地与Android设备交互。
Cyclops MCP是一个允许AI代理通过模型上下文协议安全管理和部署Kubernetes应用的工具,提供模板验证和应用创建/更新功能
MCPwner是一个基于模型上下文协议的安全研究自动化服务器,集成了多种安全测试工具(SAST、SCA、秘密扫描等),为LLM驱动的安全分析工作流提供统一接口。
FastApply MCP Server是一个企业级代码智能平台,通过本地AI模型、AST语义搜索、安全扫描和智能模式识别,提供全面的代码分析、搜索和重构能力,支持多语言开发和大规模代码库处理。
GhidraMCP是一个Ghidra插件,通过模型上下文协议(MCP)实现AI辅助的二进制分析,将逆向工程与AI助手连接,提供自然语言交互、深度代码分析、安全漏洞检测等功能。
Flutter MCP Server是一个开源的Dart/Flutter生态模型上下文协议(MCP)实现,为AI助手和开发者工具提供统一的API接口,支持远程调用Dart/Flutter开发工具链,实现安全、可编程的自动化开发流程。
一个安全的Windows命令行MCP服务器,为AI模型提供安全的系统交互能力
LinkedInMCP是一个创新的模型上下文协议服务器,旨在改变开发者与LinkedIn API的交互方式,提供智能、安全的LinkedIn数据检索和交互框架。
该项目是一个Kibana MCP服务器实现,允许AI助手通过模型上下文协议(MCP)与Kibana安全功能交互,包括告警、规则和例外管理。
Tailpipe MCP服务器是一个AI驱动的日志分析工具,通过模型上下文协议连接AI助手与云端/SaaS日志数据,支持自然语言查询和分析各类云服务日志,提供安全事件调查、成本性能洞察等功能。
该项目实现了一个基于pyATS和Genie的MCP服务器,通过JSON-RPC 2.0协议提供结构化、模型驱动的网络设备交互能力,支持安全执行CLI命令、配置变更及数据采集,适用于容器化或LangGraph集成场景。