OpenAI惊爆AI"阴谋论"!模型会故意欺骗人类,训练越多反而越狡猾
科技巨头总是不时抛出震撼弹。谷歌曾声称其量子芯片证明了多元宇宙的存在,Anthropic让AI智能体Claudius经营零食自动售货机结果失控,对顾客报警并坚称自己是人类。这周轮到OpenAI让所有人大跌眼镜。OpenAI周一发布的研究报告揭示了如何阻止AI模型进行"阴谋活动"。研究人员将这种行为定义为"AI表面上表现出一种方式,但实际上隐藏着真正的目标"。在与Apollo Research合作的论文中,研究人员进一步将AI阴谋行为比作股票经纪人为了赚更多钱而违法的行为。不过,研究人员认为大多数AI"阴谋活