OpenAI 揭示 AI 模型内部特征:可调控 “毒性” 行为助力安全 AI 开发
近日,OpenAI 发布了一项重要研究,揭示了人工智能(AI)模型内部存在的可调控特征,这些特征与模型的异常行为密切相关。研究人员通过对 AI 模型内部表征的分析,发现了一些模式,这些模式在模型表现出不当行为时会被激活。研究显示,某些特征与 AI 模型的有害行为,如撒谎或提供不负责任的建议,直接相关。图源备注:图片由AI生成,图片授权服务商Midjourney令人惊讶的是,研究团队发现,通过调整这些特征,可以显著增加或减少模型的 “毒性”。OpenAI 的可解释性研究员丹・莫辛表