OpenAI驚爆AI"陰謀論"!模型會故意欺騙人類,訓練越多反而越狡猾
科技巨頭總是不時拋出震撼彈。谷歌曾聲稱其量子芯片證明了多元宇宙的存在,Anthropic讓AI智能體Claudius經營零食自動售貨機結果失控,對顧客報警並堅稱自己是人類。這周輪到OpenAI讓所有人大跌眼鏡。OpenAI週一發佈的研究報告揭示瞭如何阻止AI模型進行"陰謀活動"。研究人員將這種行爲定義爲"AI表面上表現出一種方式,但實際上隱藏着真正的目標"。在與Apollo Research合作的論文中,研究人員進一步將AI陰謀行爲比作股票經紀人爲了賺更多錢而違法的行爲。不過,研究人員認爲大多數AI"陰謀活