阿里云通义团队9月28日推出Qwen3Guard,这是Qwen家族首款安全护栏模型。基于Qwen3架构专项微调,旨在提升AI交互安全性,精准识别用户输入和AI回复中的潜在风险,提供可靠防护。
Qwen
Qwen3-4B-SafeRL是基于Qwen3-4B模型的安全对齐版本,通过强化学习训练并结合Qwen3Guard-Gen的奖励信号,增强了模型对有害或对抗性提示的鲁棒性,在保证安全性的同时避免产生过于简单或回避性的拒绝行为。