蚂蚁集团在CVPR 2026 NTIRE挑战赛中,于“复杂真实场景鲁棒性样本测试”和“人脸增强异常检测”两赛道夺冠。该成果有助于提升支付、内容审核、金融认证等场景的风险识别能力。面对深度伪造与AIGC滥用加剧、检测模型在真实场景及多模态大模型迭代中准确率不足的挑战,这一突破为应对提供了重要技术支撑。
AI创作门槛降低导致YouTube涌现大量低质量视频,这些视频利用AI生成脚本、配音和画面,内容多围绕热点新闻或虚假信息,依靠算法推荐获取流量,给平台内容质量和审核带来巨大压力。
Meta宣布将用自研AI系统逐步取代第三方人工审核,以应对内容监管挑战。公司认为AI技术已能处理重复性审核任务,未来几年内将在Facebook和Instagram全面推行自动化审核,减少对人工审核的依赖。
Meta宣布全球加速部署AI内容执法系统,以打击恐怖主义、儿童剥削等违规内容,减少对人工审核的依赖。AI将处理高强度任务,人类专家转向后端支持。
朱雀大模型检测,精准识别AI生成图像,助力内容真实性鉴别。
新广告法违禁词查询检测工具
AI与人工审核结合的内容审核平台
AI内容审核服务,保护下游部署安全。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.7
Anthropic
$21
$105
200
Alibaba
$1
$10
256
-
$15.8
$12.7
64
Bytedance
$54
$163
Tencent
$1.6
$4
128
$8.75
$70
400
$1.75
$14
$15
Huawei
32
Chatglm
prithivMLmods
GA Guard系列是开源权重的审核模型,旨在帮助开发者和组织维护语言模型的安全性、合规性以及与现实世界的一致性。该模型可检测七种违规类别,包括非法活动、仇恨与辱骂、个人身份信息与知识产权、提示安全、色情内容、虚假信息以及暴力与自残。
GeneralAnalysis
GA Guard Thinking是General Analysis开发的40亿参数开源审核模型,专门用于检测和防止语言模型生成不安全、不合规的内容。该模型在七个安全类别上进行训练,能够有效识别非法活动、仇恨言论、个人信息泄露等风险内容。
GA Guard Lite是General Analysis开发的轻量级开源审核模型,专门用于检测语言模型输出中的违规内容。该模型能够识别七类安全风险,包括非法活动、仇恨言论、个人信息泄露等,为AI应用提供高效的内容安全防护。
GA Guard Core是General Analysis开发的开源审核模型,专门用于检测和分类七类违规内容,包括非法活动、仇恨言论、个人信息泄露等,确保AI应用的安全性和合规性。
nvidia
Llama-3.1-Nemotron-Safety-Guard-8B-v3 是 NVIDIA 开发的多语言内容安全审核模型,基于 Meta 的 Llama-3.1-8B-Instruct 模型优化,专门用于检测和分类人类与 LLM 交互中的不安全内容。
Roblox
Roblox Guard 1.0是一款基于Llama-3.1-8B-Instruct微调的最先进指令微调大语言模型,专门设计用于保护文本生成API的安全。它能够在提示词和回复层面进行双级安全分类,有效审核用户查询和模型输出,确保内容符合安全政策。
tomg-group-umd
DynaGuard-8B是由马里兰大学和第一资本开发的80亿参数守护者模型,能够根据用户定义的自然语言策略评估文本合规性,提供灵活的内容审核解决方案,在安全和合规基准测试中达到先进水平。
Ateeqq
本模型专为NSFW图像分类微调,可将内容划分为三个安全关键类别,适用于内容审核、安全过滤及合规内容处理系统。
distill
该模型是将基础模型DeepSeek-R1-蒸馏-Qwen-32B与approval_bureau_model_lora适配器合并后的产物,适用于文档审核、文本生成及内容审批相关场景。
oxyapi
基于DistilBERT的快速轻量级文本审核模型,可高效分类11种违规内容类型
unsloth
这是一个用于网络内容审核的AI模型,旨在识别和处理不符合法律法规和社会主义核心价值观的内容,维护健康有序的网络环境。
ToxicityPrompts
PolyGuard是一个用于保护LLM生成内容的多语言安全模型,支持17种语言的安全审核,当前达到最先进水平。
quentintaranpino
基于FocalNet微调的NSFW图像分类模型,用于内容审核任务,将图像分为安全、需审核、不安全三类。
DuoGuard
DuoGuard-0.5B 是一个多语言、仅解码器的基于大语言模型的分类器,专门设计用于跨12个不同子类别的安全内容审核。
Vrandan
基于DistilBERT架构构建的多标签内容审核系统,用于检测和分类用户评论中的潜在有害内容,具有高精度和轻量级特点。
mradermacher
VISION-1是一个基于transformers的内容审核与安全分类模型,专注于文本分类任务。
OverseerAI
VISION-1是基于Llama 3.1 8B Instruct微调的版本,专用于内容安全分析与审核。
PolyGuard是一款支持17种语言的多语言安全审核模型,专门为大语言模型生成内容的安全审核而设计。它能够分析人类与LLM之间的交互,判断请求和回复的有害性,识别违反的安全策略类别,填补了多语言安全审核的空白。
andriadze
基于ModernBERT-base微调的聊天内容审核模型,专门用于阻止非法/未成年/排泄物相关内容
erax-ai
高效NSFW内容检测模型,适用于图像/视频审核或限制未成年人接触有害内容
Twitch MCP服务器是一个为Twitch主播提供的AI工具集,通过Model Context Protocol(MCP)连接聊天助手(如Gemini CLI、Qwen Coder、Claude Code等)到Twitch聊天,实现聊天管理、内容审核和观众互动功能。