苹果研究人员提出新型“清单式”强化学习方案(RLCF),通过让模型对照清单自检工作,显著提升开源大语言模型性能。该方法在复杂指令任务中表现优于传统奖励模型,突破RLHF局限性,成为重要后训练优化手段。
Google
-
Input tokens/M
Output tokens/M
Context Length
Baidu
$1
$4
64