北京消协联合8家主流电商平台签署《促进AI技术规范应用承诺书》,旨在解决AI应用中消费者知情权保障不足、“虚假营销”及平台审核机制短板三大问题。近九成受访者呼吁AI生成内容需明确标识。
国家广电总局宣布,2026年3月起全面整治AI生成内容,将恶搞短剧等纳入审核范围,开展专项治理行动。此举旨在规范AI动画领域,应对技术发展带来的内容管理挑战。
国家广电总局宣布2026年3月前开展专项治理,首次将AI生成动画微短剧纳入分类分层审核体系。新规要求所有AIGC内容须事前审核备案,未通过不得上线;已上线合规内容需在2026年3月底前完成补审,否则下架。
埃隆·马斯克旗下xAI推出Grokipedia,旨在用AI打造比维基百科更客观、少“宣传”的知识平台。它结合社区协作与AI智能审核,用户可编辑条目,AI则辅助确保内容真实清晰,应对网络信息过载与虚假叙事问题。
朱雀大模型检测,精准识别AI生成图像,助力内容真实性鉴别。
新广告法违禁词查询检测工具
AI与人工审核结合的内容审核平台
AI内容审核服务,保护下游部署安全。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.7
Anthropic
$21
$105
200
Alibaba
$1
$10
256
-
$15.8
$12.7
64
Bytedance
$54
$163
Tencent
$1.6
$4
128
$8.75
$70
400
$1.75
$14
$15
Huawei
32
Chatglm
$8
$16
prithivMLmods
GA Guard系列是开源权重的审核模型,旨在帮助开发者和组织维护语言模型的安全性、合规性以及与现实世界的一致性。该模型可检测七种违规类别,包括非法活动、仇恨与辱骂、个人身份信息与知识产权、提示安全、色情内容、虚假信息以及暴力与自残。
GeneralAnalysis
GA Guard Thinking是General Analysis开发的40亿参数开源审核模型,专门用于检测和防止语言模型生成不安全、不合规的内容。该模型在七个安全类别上进行训练,能够有效识别非法活动、仇恨言论、个人信息泄露等风险内容。
GA Guard Lite是General Analysis开发的轻量级开源审核模型,专门用于检测语言模型输出中的违规内容。该模型能够识别七类安全风险,包括非法活动、仇恨言论、个人信息泄露等,为AI应用提供高效的内容安全防护。
GA Guard Core是General Analysis开发的开源审核模型,专门用于检测和分类七类违规内容,包括非法活动、仇恨言论、个人信息泄露等,确保AI应用的安全性和合规性。
nvidia
Llama-3.1-Nemotron-Safety-Guard-8B-v3 是 NVIDIA 开发的多语言内容安全审核模型,基于 Meta 的 Llama-3.1-8B-Instruct 模型优化,专门用于检测和分类人类与 LLM 交互中的不安全内容。
Roblox
Roblox Guard 1.0是一款基于Llama-3.1-8B-Instruct微调的最先进指令微调大语言模型,专门设计用于保护文本生成API的安全。它能够在提示词和回复层面进行双级安全分类,有效审核用户查询和模型输出,确保内容符合安全政策。
tomg-group-umd
DynaGuard-8B是由马里兰大学和第一资本开发的80亿参数守护者模型,能够根据用户定义的自然语言策略评估文本合规性,提供灵活的内容审核解决方案,在安全和合规基准测试中达到先进水平。
Ateeqq
本模型专为NSFW图像分类微调,可将内容划分为三个安全关键类别,适用于内容审核、安全过滤及合规内容处理系统。
distill
该模型是将基础模型DeepSeek-R1-蒸馏-Qwen-32B与approval_bureau_model_lora适配器合并后的产物,适用于文档审核、文本生成及内容审批相关场景。
oxyapi
基于DistilBERT的快速轻量级文本审核模型,可高效分类11种违规内容类型
unsloth
这是一个用于网络内容审核的AI模型,旨在识别和处理不符合法律法规和社会主义核心价值观的内容,维护健康有序的网络环境。
ToxicityPrompts
PolyGuard是一个用于保护LLM生成内容的多语言安全模型,支持17种语言的安全审核,当前达到最先进水平。
quentintaranpino
基于FocalNet微调的NSFW图像分类模型,用于内容审核任务,将图像分为安全、需审核、不安全三类。
DuoGuard
DuoGuard-0.5B 是一个多语言、仅解码器的基于大语言模型的分类器,专门设计用于跨12个不同子类别的安全内容审核。
Vrandan
基于DistilBERT架构构建的多标签内容审核系统,用于检测和分类用户评论中的潜在有害内容,具有高精度和轻量级特点。
mradermacher
VISION-1是一个基于transformers的内容审核与安全分类模型,专注于文本分类任务。
OverseerAI
VISION-1是基于Llama 3.1 8B Instruct微调的版本,专用于内容安全分析与审核。
PolyGuard是一款支持17种语言的多语言安全审核模型,专门为大语言模型生成内容的安全审核而设计。它能够分析人类与LLM之间的交互,判断请求和回复的有害性,识别违反的安全策略类别,填补了多语言安全审核的空白。
andriadze
基于ModernBERT-base微调的聊天内容审核模型,专门用于阻止非法/未成年/排泄物相关内容
erax-ai
高效NSFW内容检测模型,适用于图像/视频审核或限制未成年人接触有害内容
Twitch MCP服务器是一个为Twitch主播提供的AI工具集,通过Model Context Protocol(MCP)连接聊天助手(如Gemini CLI、Qwen Coder、Claude Code等)到Twitch聊天,实现聊天管理、内容审核和观众互动功能。