微软警告新型“AI建议投毒”攻击,攻击者通过网页链接嵌入隐藏指令,诱导AI生成偏见或误导内容。这种攻击利用AI的“记忆”机制,用户点击链接时,恶意提示词会悄悄输入AI,导致其执行有害指令。
英国首相斯塔默要求马斯克旗下X平台对AI聊天机器人Grok卷入制造色情深伪图像事件负责,强调必须清理有害内容。报道称,Grok一项允许用户随意编辑图像的功能,导致大量针对女性及未成年人的性化深伪内容泛滥。
意大利研究发现,诗歌的不可预测性可能成为大语言模型安全漏洞。研究团队通过20首含恶意指令的中英文诗歌测试25个AI模型,结果显示62%的模型未能识别隐藏指令,生成有害内容。这表明当前AI安全防护存在隐患,需加强内容识别能力。
OpenAI新推出的Sora视频生成平台基于Sora 2模型,能制作高仿真视频,包括伪造马丁・路德・金等名人影像,以及使用海绵宝宝等版权角色,生成令人震惊或有害内容。用户对生成视频有一定认知。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.7
Anthropic
$21
$105
200
Alibaba
$1
$10
256
-
$15.8
$12.7
64
Bytedance
$54
$163
Tencent
$1.6
$4
128
$8.75
$70
400
$1.75
$14
$15
Huawei
32
Chatglm
$8
$16
yueliu1999
基于Llama-3.2-3B通过R-SFT和HS-DPO方法微调的安全防护模型,用于分析人机交互中的有害内容
Vrandan
基于DistilBERT架构构建的多标签内容审核系统,用于检测和分类用户评论中的潜在有害内容,具有高精度和轻量级特点。
Sk1306
基于RoBERTa微调的文本分类模型,专门用于检测学生对话中的有害内容
ToxicityPrompts
PolyGuard是一款支持17种语言的多语言安全审核模型,专门为大语言模型生成内容的安全审核而设计。它能够分析人类与LLM之间的交互,判断请求和回复的有害性,识别违反的安全策略类别,填补了多语言安全审核的空白。
scb10x
基于mDeBERTa-v3-base构建的轻量级二元分类器,用于检测英语和泰语中的有害内容,特别关注泰国文化敏感性
erax-ai
高效NSFW内容检测模型,适用于图像/视频审核或限制未成年人接触有害内容
SinclairSchneider
基于Llama-3.2-11B的多模态内容安全分类模型,支持检测有害的文本/图像输入及响应
meta-llama
基于Llama-3.2-11B微调的多模态内容安全分类器,专为检测图文混合有害内容优化
GraySwanAI
Mistral-7B-Instruct-RR是基于Mistral-7B的改进模型,通过表征重路由(RR)技术插入了断路器机制。该技术通过直接干预有害内容生成时的模型表征,以最小化能力损失的方式防止AI系统产生有害内容。
Llama-3-8B-Instruct-RR是一款基于Llama-3的模型,采用表征重路由(RR)技术插入断路器,旨在减少有害内容生成的同时保持模型能力。
AgentPublic
基于CamemBERT架构的法语文本分类模型,用于识别有害内容、敏感话题和无害提问
FredZhang7
多语言文本毒性检测模型,支持55种语言,用于识别有害或垃圾内容
autopilot-ai
Ethical Eye是由AutopilotAI开发的开源AI模型,旨在标记和分析用户生成内容中的有害或不道德行为,为AI系统提供决策辅助以促进道德行为。
unitary
基于PyTorch Lightning和Hugging Face Transformers的毒性评论分类系统,可检测多种类型的网络有害内容
martin-ha
基于DistilBERT微调的毒性评论分类模型,用于识别在线评论中的有害内容
mudes
MUDES是一个用于检测社交媒体文本中有害内容片段的先进模型,支持多语言环境。
cointegrated
基于RUT5的小型闲聊模型,针对俄语对话优化,减少了有害内容生成。