OpenAI周四发布青少年AI安全标准蓝图,呼吁关注未成年人使用AI的风险。文件发布之际,美国多州正酝酿AI安全立法,参议院拟禁止未成年人使用聊天机器人。同时,OpenAI因一起青少年自杀诉讼陷入舆论漩涡,凸显其平台在保护未成年用户方面的不足。
印度支付巨头Paytm与美国硬件公司Groq合作,将利用GroqCloud云端服务提升AI模型性能,优化交易处理、风险评估、欺诈检测和消费者互动。GroqCloud基于自主研发的语言处理单元,专注于AI推理,旨在增强Paytm平台的智能化水平。
微软安全团队警告新型恶意软件"SesameOp"利用OpenAI Assistants API进行攻击。该软件将合法云服务伪装成隐蔽指挥控制通道,使攻击者能持续潜伏受害者系统。2025年7月首次发现的这种攻击手段,凸显了云服务被恶意利用的新风险。
谷歌Gemma模型因误传美国参议员布莱克本的虚假信息引发争议,被指诽谤。谷歌于10月31日宣布将Gemma3模型从AI Studio平台撤下,以防止误解。目前该模型仅通过API可用,AI Studio上已无法访问。
实时SBOM、漏洞风险评分、许可证合规及供应商可见性,首5个仓库免费
Snowglobe帮助AI团队在规模上测试LLM应用。在推出之前模拟真实对话,发现风险并提高模型性能。
Enzzo AI是一款AI驱动的PRD解决方案,压缩产品需求文档,生成需求,减轻风险,促进团队协作,提高效率。
实时金融和地缘政治新闻API,适用于交易、风险和分析。
GeneralAnalysis
GA Guard Thinking是General Analysis开发的40亿参数开源审核模型,专门用于检测和防止语言模型生成不安全、不合规的内容。该模型在七个安全类别上进行训练,能够有效识别非法活动、仇恨言论、个人信息泄露等风险内容。
GA Guard Lite是General Analysis开发的轻量级开源审核模型,专门用于检测语言模型输出中的违规内容。该模型能够识别七类安全风险,包括非法活动、仇恨言论、个人信息泄露等,为AI应用提供高效的内容安全防护。
vedabtpatil07
这是一个基于DistilBERT微调的心理健康分类模型,专门用于分析社交媒体文本(如推文、Reddit帖子)中的心理健康相关信号。模型可将文本分为抑郁、焦虑、自杀念头、快乐、中性/日常5个类别,旨在帮助识别有心理健康问题风险的个体。
beenyb
这是一个基于GPT-OSS 20B微调的金融分析模型,专门用于金融市场分析,可为各种证券提供技术分析、风险评估、交易信号和价格预测。采用Q8_0 GGUF格式量化,在保证模型质量的同时降低推理要求。
Mungert
Granite Guardian 3.2 5B是IBM开发的AI风险检测模型,专门用于检测提示和响应中的多种安全风险。该模型基于IBM AI风险图谱,能够识别伤害、社会偏见、越狱、暴力等多种风险类型,是企业级AI安全监控的重要工具。
花岗岩守护者3.2 3B - A800M是一款专门用于检测提示和响应中风险的精细调整模型。它能依据多种关键维度进行风险检测,在标准基准测试中表现优于同类型的其他开源模型。
sallani
ELISARCyberAIEdge7B-LoRA-GGUF 是一款专为网络安全用例设计的离线就绪、量化的 LLaMA 边缘模型,可有效应对网络安全风险评估等多种场景。
unsloth
MAI-DS-R1 是 DeepSeek-R1 推理模型,经过微软 AI 团队的后续训练,以提升其在受限话题上的响应能力并优化其风险表现,同时保持其推理能力和竞争性能。
microsoft
MAI-DS-R1是微软AI团队对DeepSeek-R1推理模型进行后训练的成果,旨在提升其对敏感话题的响应能力并优化风险表现,同时保持原有的推理能力和竞争优势。
MAI-DS-R1是微软AI团队对DeepSeek-R1推理模型进行后训练的成果,旨在提升其对敏感话题的响应能力并优化风险表现,同时保持原有推理能力和竞争优势。
Freepik
专为NSFW内容分级微调的视觉Transformer模型,可识别中性/轻度/中度/重度四级内容风险
ibm-research
IBM Research开发的风险检测大语言模型,基于Granite 3.2 30亿参数模型微调,专门用于检测提示和响应中的各类风险,为企业应用提供安全防护。
ibm-granite
花岗岩守护者3.2是基于3.1版本精简的风险检测模型,通过迭代剪枝技术实现更高效推理,专注于识别提示与响应中的多维度风险。
Granite Guardian 3.1 2B是一个经过微调的Granite 3.1 2B指令模型,旨在检测提示和响应中的风险。它可以依据IBM AI风险图谱中列出的多个关键维度进行风险检测。
cybersectony
该模型基于DistilBERT架构,专为多标签分类任务设计,用于判断邮件和URL是否安全或存在钓鱼风险。
该模型基于DistilBERT构建,经过微调后可对邮件和URL进行多标签分类,判断其是否安全或存在潜在的网络钓鱼风险。
Granite Guardian 3.0 8B是由IBM Research开发的经过微调的Granite 3.0 8B指令模型,专门用于检测提示和回复中的风险内容。
hw2942
基于hfl/chinese-roberta-wwm-ext微调的中文RoBERTa模型,用于气候转型和物理风险预测任务
prem-research
Prem-1B-SQL是由Prem AI开发的首个全本地文本到SQL模型系列之一,拥有10亿参数,专为低配置GPU设备设计,量化后可在CPU上运行。该模型优先考虑本地化部署,避免数据安全风险,适用于企业级SQL查询生成。
aimagelab
Safe-CLIP 是基于 CLIP 的增强型视觉与语言模型,通过微调降低 NSFW 内容风险,适用于文本到图像和图像到文本任务。
MCP-Shield是一款用于扫描MCP服务器漏洞的安全工具,可检测工具投毒攻击、数据泄露通道和跨域违规等安全风险。
MCP Trader Server是一个面向股票交易者的模型上下文协议服务器,提供全面的技术分析工具和风险管理功能。
一个基于MCP协议的网站安全扫描工具,集成dirsearch目录扫描和firecrawl爬虫技术,可自动化识别网站技术栈并分类漏洞风险等级
Maccy剪贴板MCP服务器是一个将Maccy剪贴板历史暴露给Claude等AI助手的服务工具,支持搜索、查看、管理剪贴板内容,包含图像支持与数据统计功能,但需注意敏感数据泄露风险。
Korx Share MCP Server是一个多功能MCP协议服务器,通过与korx.org API集成,为AI生成的视觉内容(如图表、仪表盘和HTML页面)创建安全可分享的URL,同时保持内容交互性并进行风险过滤。
Rug-Check-MCP是一个MCP服务器项目,用于检测Solana迷因币的潜在风险,帮助AI代理避免拉地毯骗局和不安全项目。它通过Solsniffer API获取代币数据,提供包括名称、符号、风险评分、市值、价格、供应量、风险详情和审计状态在内的结构化分析结果。
Octagon VC Agents是一个运行AI驱动的风险投资家代理的MCP服务器,模拟知名风投(如Fred Wilson、Peter Thiel等)的投资思维,结合Octagon Private Markets的实时交易、估值和深度研究数据,用于提供融资反馈、尽职调查模拟、条款谈判等可编程的“风投大脑”服务。
一个基于Yahoo Finance的高级期权分析与策略评估MCP服务器,为LLM提供期权链分析、希腊值计算和风险管理功能。
该项目是一个实现CISA BOD 25-01安全控制的M365 MCP服务器,通过微软Graph API管理Microsoft 365安全设置,提供包括阻止传统认证、基于风险访问控制、MFA管理、应用注册控制、密码策略管理等功能。
项目MCP服务器是一个用于管理项目知识图谱的工具,提供项目、任务、里程碑、资源和团队成员的结构化表示,帮助项目经理跟踪进度、管理风险、分配资源和做出决策。
该项目是一个用于教育目的的MCP工具包,展示社交平台内容分析技术及其安全风险,包含Reddit和LinkedIn的数据提取与分析工具。
企业查询MCP提供一站式企业大数据洞察服务,包括工商信息查询、风险扫描、科创评估等功能,支持云端和本地部署。
BICScan MCP Server是一个基于BICScan API的区块链地址风险评估服务,提供实时风险评分和资产信息查询功能。
Octagon VC Agents是一个运行AI驱动的风险投资家代理的MCP服务器,模拟知名风投(如Fred Wilson、Peter Thiel等)的投资思维,结合Octagon Private Markets的实时交易数据和深度研究情报,用于提供融资反馈、尽职调查模拟、条款谈判等服务。
MCP Bridge是一个轻量级、与LLM无关的RESTful代理,用于连接多个模型上下文协议(MCP)服务器,并通过统一的REST API暴露其功能。它解决了边缘设备、移动设备和Web浏览器等平台无法高效运行MCP服务器的问题,提供了可选的基于风险的执行级别,包括标准执行、确认工作流和Docker隔离等安全控制。
DeRisk是一个AI原生的风险智能管理系统,提供7*24小时全面深入的应用系统风险防护,基于开源社区协作开发的模块化框架,专注于风险与数据领域的能力衍生。
Trellis MCP是一个连接AI助手与Trellis 3D生成模型的接口服务,支持通过自然语言快速生成3D资产并导入Blender。该项目基于开源模型,需自行部署API后端,具有快速、免费的特点,但存在稳定性风险。
该项目通过extendable-agents演示了AI代理工具使用的安全风险,特别是MCP协议下工具共享可能带来的敏感信息泄露问题,并提供了安全使用建议。
一个基于两阶段SQL生成的MCP服务器,通过自然语言转换SQL,降低幻觉风险并提升非技术用户信任度。
一个MCP服务器项目,用于追踪Twitter用户名的历史变更记录,特别关注加密货币项目中频繁更改用户名的潜在诈骗风险。