谷歌DeepMind推出SCoRe:大型语言模型自我纠正新技术
谷歌DeepMind研究团队最近取得重大突破,开发出名为SCoRe(Self-Correction through Reinforcement Learning,通过强化学习进行自我纠正)的创新技术。这一技术旨在解决大型语言模型(LLM)难以自我纠正的长期挑战,无需依赖多个模型或外部检查即可识别和修复错误。SCoRe技术的核心在于其两阶段方法。第一阶段优化模型初始化,使其能在第二次尝试时生成修正,同时保持初始响应与基础模型的相似性。第二阶段采用多阶段强化学习,教导模型如何改进第一和第二个答案。这种方法的独特之处在于它仅使