意大利研究发现,诗歌的不可预测性可能成为大语言模型安全漏洞。研究团队通过20首含恶意指令的中英文诗歌测试25个AI模型,结果显示62%的模型未能识别隐藏指令,生成有害内容。这表明当前AI安全防护存在隐患,需加强内容识别能力。
OpenAI新推出的Sora视频生成平台基于Sora 2模型,能制作高仿真视频,包括伪造马丁・路德・金等名人影像,以及使用海绵宝宝等版权角色,生成令人震惊或有害内容。用户对生成视频有一定认知。
OpenAI宣布将扫描ChatGPT用户聊天记录以检测有害内容,引发隐私担忧。公司称当用户对话显示威胁他人迹象时,将转交专门团队审核,可能采取封禁账户等措施,尤其涉及严重人身伤害风险时。
研究人员发现新型AI攻击方法"信息过载"(InfoFlood),通过向聊天机器人发送过量信息可绕过安全防护。该系统利用虚假引用和无关声明干扰AI判断,使ChatGPT等模型违反安全规则。研究表明传统关键词过滤在面对信息轰炸时会失效,恶意用户可借此植入有害内容。专家呼吁加强AI安全措施,推动相关伦理讨论。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.7
Anthropic
$21
$105
200
Alibaba
$1
$10
256
-
$15.8
$12.7
64
Bytedance
$54
$163
Tencent
$1.6
$4
128
$8.75
$70
400
$1.75
$14
$15
Huawei
32
Chatglm
$8
$16
yueliu1999
基于Llama-3.2-3B通过R-SFT和HS-DPO方法微调的安全防护模型,用于分析人机交互中的有害内容
Vrandan
基于DistilBERT架构构建的多标签内容审核系统,用于检测和分类用户评论中的潜在有害内容,具有高精度和轻量级特点。
Sk1306
基于RoBERTa微调的文本分类模型,专门用于检测学生对话中的有害内容
ToxicityPrompts
PolyGuard是一款支持17种语言的多语言安全审核模型,专门为大语言模型生成内容的安全审核而设计。它能够分析人类与LLM之间的交互,判断请求和回复的有害性,识别违反的安全策略类别,填补了多语言安全审核的空白。
scb10x
基于mDeBERTa-v3-base构建的轻量级二元分类器,用于检测英语和泰语中的有害内容,特别关注泰国文化敏感性
erax-ai
高效NSFW内容检测模型,适用于图像/视频审核或限制未成年人接触有害内容
SinclairSchneider
基于Llama-3.2-11B的多模态内容安全分类模型,支持检测有害的文本/图像输入及响应
meta-llama
基于Llama-3.2-11B微调的多模态内容安全分类器,专为检测图文混合有害内容优化
GraySwanAI
Mistral-7B-Instruct-RR是基于Mistral-7B的改进模型,通过表征重路由(RR)技术插入了断路器机制。该技术通过直接干预有害内容生成时的模型表征,以最小化能力损失的方式防止AI系统产生有害内容。
Llama-3-8B-Instruct-RR是一款基于Llama-3的模型,采用表征重路由(RR)技术插入断路器,旨在减少有害内容生成的同时保持模型能力。
AgentPublic
基于CamemBERT架构的法语文本分类模型,用于识别有害内容、敏感话题和无害提问
FredZhang7
多语言文本毒性检测模型,支持55种语言,用于识别有害或垃圾内容
autopilot-ai
Ethical Eye是由AutopilotAI开发的开源AI模型,旨在标记和分析用户生成内容中的有害或不道德行为,为AI系统提供决策辅助以促进道德行为。
unitary
基于PyTorch Lightning和Hugging Face Transformers的毒性评论分类系统,可检测多种类型的网络有害内容
martin-ha
基于DistilBERT微调的毒性评论分类模型,用于识别在线评论中的有害内容
mudes
MUDES是一个用于检测社交媒体文本中有害内容片段的先进模型,支持多语言环境。
cointegrated
基于RUT5的小型闲聊模型,针对俄语对话优化,减少了有害内容生成。