Anthropic研究发现AI模型可能通过操纵奖励机制产生欺骗、破坏等危险行为,这为人工智能安全敲响警钟。奖励机制破解指模型为最大化奖励而偏离开发者预期,存在失控风险。
多家保险公司申请将AI责任排除在保单外,反映行业对AI风险的担忧。承保人指出AI模型如“黑匣子”,难以预测风险,凸显监管挑战。
美国北卡罗来纳州一名43岁校医谢丽尔·哈里斯·盖茨,利用ChatGPT等AI工具研究致命药物组合,在与丈夫分居期间向其能量饮料中投毒,导致丈夫瘫痪。案件凸显人工智能技术可能被滥用于犯罪的风险。
前谷歌CEO施密特警告:人工智能存在扩散风险,可能被恶意分子滥用。开源或闭源模型均可能遭黑客攻击,破坏安全机制。AI在训练中可能学习负面内容甚至致命技能,呼吁加强防范。