苹果公司提出RLCF强化学习新方法,用任务清单替代人工评分,显著提升大语言模型执行复杂指令的能力。该方法与RLHF形成对比,后者依赖简单人工评价。
苹果研究人员提出新型“清单式”强化学习方案(RLCF),通过让模型对照清单自检工作,显著提升开源大语言模型性能。该方法在复杂指令任务中表现优于传统奖励模型,突破RLHF局限性,成为重要后训练优化手段。
Alibaba
$2
输入tokens/百万
-
输出tokens/百万
128
上下文长度
Shanghai-ai-lab
8