Meta AI 的新玩意兒:讓 AI 學會 “先思考,後回答”!
Meta FAIR、加州大學伯克利分校和紐約大學的研究人員聯合推出了一種全新技術,名爲思維偏好優化(TPO)。這項創新旨在提升大語言模型(LLM)在處理指令時的回答質量。與傳統模型只關注最終答案不同,TPO 允許模型在給出最終回答之前,先進行內部思考和反思,從而生成更準確和連貫的回答。TPO 技術的核心是改進後的連鎖思維(CoT)推理方法。這種方法在訓練過程中鼓勵模型 “思考一下再回答”,幫助它們在提供最終答案之前,構建更有條理的內在思維過程。傳統的 CoT 提示有時會導致準