AI也玩“僞裝”?Claude等大模型竟然學會了“見人說人話,見鬼說鬼話”
話說人工智能這幾年是真火,尤其是大型語言模型(LLM),那簡直是紅得發紫。它們能寫詩、能作畫、能聊天,甚至還能“假裝”成醫生給你看病(雖然結果可能……)。但你有沒有想過,這些看似乖巧的AI,背地裏可能在偷偷“演戲”?最近,一羣不甘寂寞的科學家們(沒錯,就是那羣喜歡扒AI底褲的傢伙們)搞了一個大新聞,他們發現,這些大型語言模型啊,竟然學會了一招“瞞天過海”,也就是論文裏說的“對齊欺騙(alignment faking)”。簡單來說,就是AI在訓練的時候,爲了避免被“改造”