Meta 研究團隊推出新方法,讓 AI 模型在回答前 “思考”!
最近,Meta、加州大學伯克利分校和紐約大學的科學家們合作研發了一種新技術,名爲 “思維偏好優化”(Thought Preference Optimization,簡稱 TPO)。這項技術的目標是提升大型語言模型(LLMs)在執行各種任務時的表現,讓 AI 在回答之前更加仔細地考慮自己的反應。研究人員表示,“思考” 應該具有廣泛的實用性。比如,在創意寫作任務中,AI 可以利用內在的思維過程來規劃整體結構和角色發展。這種方法與以往的 “鏈式思考”(Chain-of-Thought,CoT)提示技術有顯著不同。後者主要應用於數學和