谷歌因全球算力短缺限制Meta访问顶级AI模型Gemini,此前该模型是Meta自动化安全审核的核心,高效处理诈骗和有害内容检测。此举凸显云计算能力瓶颈正影响科技巨头关键业务。
为配合“清朗·整治AI应用乱象”专项行动,中央网信办举报中心本月上线“涉AI应用乱象举报专区”,面向公众开放举报渠道。专区受理14类违规问题,分为AI应用服务违规(如大模型未备案、安全审核不足、语料安全隐患、数据投毒、合成内容造假等)和AI生成内容违规两大类,旨在规范AI产品服务,保障网民权益。
Meta的AI客服系统出现安全漏洞,黑客通过欺骗AI聊天机器人,成功劫持了包括奥巴马白宫账号、美国太空军总军士长及丝芙兰官方页面在内的多个知名Instagram账号,并发布恶意宣传内容。事件引发对AI工具安全性的广泛质疑。
黑客利用AI平台合法机制发起新型攻击“LLMShare”,将恶意内容托管在OpenAI官方域名上,利用用户对官方平台的信任诱导下载木马程序。攻击者通过伪装成AI工具分享内容,精准投毒,实现高度隐蔽的欺骗,威胁用户安全。
轻松下载Fansly内容,一键快速安全下载,可批量操作,支持免费试用。
Planelo是面向独立开发者和创始人的以创意为先的项目中心,安全组织各类内容。
F Lite 是一款 10B 参数的扩散模型,专注于合法和安全内容。
LockChain提供安全的数字身份验证和基于区块链的身份验证,确保您的内容和身份安全。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.7
Anthropic
$7
$35
200
$21
$105
Alibaba
$1
$10
256
-
$15.8
$12.7
64
Bytedance
$54
$163
Tencent
$1.6
$4
128
$8.75
$70
400
$1.75
$14
$525
$15
Huawei
32
Mungert
gpt-oss-safeguard-20b是基于GPT-OSS-20b微调的安全推理模型,专门用于大语言模型输入输出过滤、在线内容标注以及信任与安全用例的离线标注。该模型采用Apache 2.0许可证,支持自定义策略和透明决策过程。
unsloth
gpt-oss-safeguard-120b 是 OpenAI 基于 gpt-oss 构建的安全推理模型,拥有 1170 亿参数(其中 51 亿为活跃参数)。该模型专门针对安全用例设计,能够根据提供的安全策略对文本内容进行分类和执行基础安全任务。
GPT-OSS-Safeguard-20B是基于GPT-OSS构建的210亿参数安全推理模型,专门针对安全相关的文本内容分类和过滤任务进行优化。该模型支持自定义安全策略,提供透明的推理过程,适用于大语言模型输入输出过滤、在线内容标注等安全用例。
prithivMLmods
GA Guard系列是开源权重的审核模型,旨在帮助开发者和组织维护语言模型的安全性、合规性以及与现实世界的一致性。该模型可检测七种违规类别,包括非法活动、仇恨与辱骂、个人身份信息与知识产权、提示安全、色情内容、虚假信息以及暴力与自残。
GeneralAnalysis
GA Guard Thinking是General Analysis开发的40亿参数开源审核模型,专门用于检测和防止语言模型生成不安全、不合规的内容。该模型在七个安全类别上进行训练,能够有效识别非法活动、仇恨言论、个人信息泄露等风险内容。
openai
gpt-oss-safeguard-20b是基于gpt-oss构建的安全推理模型,拥有210亿参数(其中36亿为活跃参数),专门针对安全用例设计。该模型可根据提供的安全策略对文本内容进行分类,并执行基础安全任务,适用于大语言模型输入输出过滤、在线内容标注等场景。
gpt-oss-safeguard-120b是基于gpt-oss构建的安全推理模型,专门为安全用例设计。该模型能够根据提供的安全策略对文本内容进行分类,并执行一系列基础安全任务,适用于大语言模型输入输出过滤、在线内容标注等场景。
GA Guard Lite是General Analysis开发的轻量级开源审核模型,专门用于检测语言模型输出中的违规内容。该模型能够识别七类安全风险,包括非法活动、仇恨言论、个人信息泄露等,为AI应用提供高效的内容安全防护。
GA Guard Core是General Analysis开发的开源审核模型,专门用于检测和分类七类违规内容,包括非法活动、仇恨言论、个人信息泄露等,确保AI应用的安全性和合规性。
nvidia
Llama-3.1-Nemotron-Safety-Guard-8B-v3 是 NVIDIA 开发的多语言内容安全审核模型,基于 Meta 的 Llama-3.1-8B-Instruct 模型优化,专门用于检测和分类人类与 LLM 交互中的不安全内容。
Roblox
Roblox Guard 1.0是一款基于Llama-3.1-8B-Instruct微调的最先进指令微调大语言模型,专门设计用于保护文本生成API的安全。它能够在提示词和回复层面进行双级安全分类,有效审核用户查询和模型输出,确保内容符合安全政策。
tomg-group-umd
DynaGuard-8B是由马里兰大学和第一资本开发的80亿参数守护者模型,能够根据用户定义的自然语言策略评估文本合规性,提供灵活的内容审核解决方案,在安全和合规基准测试中达到先进水平。
DMindAI
DMind-1是基于Qwen3-32B打造的Web3专家模型,通过监督式指令微调与人类反馈强化学习专为Web3生态系统优化,在任务准确性、内容安全性和专家级交互对齐方面实现显著提升。
AIML-TUDA
QwenGuard-v1.2-3B是基于Qwen/Qwen2.5-VL-3B-Instruct开发的视觉安全防护模型,用于评估图像内容的安全性。
Ateeqq
本模型专为NSFW图像分类微调,可将内容划分为三个安全关键类别,适用于内容审核、安全过滤及合规内容处理系统。
meta-llama
Llama Guard 4 是一个原生多模态安全分类器,拥有120亿参数,联合训练于文本和多重图像,用于大语言模型输入和输出的内容安全评估。
ToxicityPrompts
PolyGuard是一个用于保护LLM生成内容的多语言安全模型,支持17种语言的安全审核,当前达到最先进水平。
quentintaranpino
基于FocalNet微调的NSFW图像分类模型,用于内容审核任务,将图像分为安全、需审核、不安全三类。
DuoGuard
DuoGuard-0.5B 是一个多语言、仅解码器的基于大语言模型的分类器,专门设计用于跨12个不同子类别的安全内容审核。
yueliu1999
基于Llama-3.2-3B通过R-SFT和HS-DPO方法微调的安全防护模型,用于分析人机交互中的有害内容
Awesome MCP Security 是一个关于模型上下文协议(MCP)安全的资源集合,包括安全考虑、论文、视频、文章、工具和服务器等内容,旨在帮助用户了解和应对MCP相关的安全挑战。
AIM Guard MCP是一个AI安全防护服务器,为AI代理提供安全分析、内容审查和防护指令,确保AI与各类MCP服务交互时的安全性。
这是一个为Sitecore内容管理系统开发的Model Context Protocol服务器,提供GraphQL API、项目服务API、PowerShell脚本执行、安全管理、索引管理等多种工具,支持通过MCP协议与AI助手集成进行Sitecore内容管理操作。
Korx Share MCP Server是一个多功能MCP协议服务器,通过与korx.org API集成,为AI生成的视觉内容(如图表、仪表盘和HTML页面)创建安全可分享的URL,同时保持内容交互性并进行风险过滤。
Ghost MCP Server是一个为Ghost CMS提供模型上下文协议(MCP)接口的TypeScript服务,支持通过LLM(如Claude)安全管理博客内容。
Umbraco MCP是一个基于模型上下文协议(MCP)的服务器,为Umbraco CMS提供AI驱动的后台内容管理功能。它通过Umbraco管理API实现安全、权限控制的自动化操作,使AI助手能够通过自然对话执行复杂的后台任务,无需人工操作界面。
MCP数据获取服务器是一个安全、沙盒化的服务器,通过模型控制协议(MCP)获取网页内容并提取数据,不执行JavaScript。
Nash MCP是一个多功能命令执行服务器,支持Shell命令、Python代码执行、网页内容获取和任务管理,提供安全的凭证存储和会话管理功能。
一个基于FastMCP的安全微服务项目,用于静态分析Microsoft Office文档中的潜在恶意内容,支持VBA/XLM宏检测、DDE链接检查等功能。
一个提供沙盒化文件访问的MCP服务器,支持目录探索、文件读取、内容搜索和安全编辑,适用于AI代理管理文本文件集合。
Minibridge是一个后端到前端的桥梁工具,用于简化和保护代理与MCP服务器之间的通信。它安全地将MCP服务器暴露到互联网,并可集成策略服务进行认证、内容分析和转换。支持SBOM生成验证、OTEL遥测,并提供TLS加密、监控和跟踪功能。
一个为Bear笔记应用设计的只读MCP服务器,允许AI助手如Claude安全访问用户笔记内容,通过直接连接SQLite数据库实现,不修改原始数据。
该项目是一个用于教育目的的MCP工具包,展示社交平台内容分析技术及其安全风险,包含Reddit和LinkedIn的数据提取与分析工具。
AIM Guard MCP是一个AI安全防护服务器,为AI代理提供安全分析、内容检测和防护指令工具,保护MCP交互安全
MCP Server是一个为AI助手提供网络搜索和网页访问能力的服务器,支持安全地获取实时信息并处理网页内容。
MCP Firebird是一个为Firebird数据库实现Anthropic模型上下文协议(MCP)的服务,允许大型语言模型如Claude安全地访问和分析数据库内容。
Xmcp是一个基于AI的命令行工具,帮助用户撰写并直接发布推文到Twitter账户,提供内容生成、安全认证和草稿管理等功能。
Ghost MCP Server是一个通过LLM接口(如Claude)与Ghost CMS交互的协议服务器,提供安全的API访问和全面的内容管理功能,支持文章、用户、订阅等多资源操作。
一个VSCode/Cursor扩展,通过MCP服务器实现与Confluence Wiki的集成,提供安全配置界面和内容转换功能。
一个安全的MCP服务器,提供OpenAI和Google Gemini API的桥接服务,具备多层安全验证、内容过滤和速率限制功能。