谷歌DeepMind推出SCoRe:大型語言模型自我糾正新技術
谷歌DeepMind研究團隊最近取得重大突破,開發出名爲SCoRe(Self-Correction through Reinforcement Learning,通過強化學習進行自我糾正)的創新技術。這一技術旨在解決大型語言模型(LLM)難以自我糾正的長期挑戰,無需依賴多個模型或外部檢查即可識別和修復錯誤。SCoRe技術的核心在於其兩階段方法。第一階段優化模型初始化,使其能在第二次嘗試時生成修正,同時保持初始響應與基礎模型的相似性。第二階段採用多階段強化學習,教導模型如何改進第一和第二個答案。這種方法的獨特之處在於它僅使