蘋果公司提出RLCF強化學習新方法,用任務清單替代人工評分,顯著提升大語言模型執行復雜指令的能力。該方法與RLHF形成對比,後者依賴簡單人工評價。
蘋果研究人員提出新型“清單式”強化學習方案(RLCF),通過讓模型對照清單自檢工作,顯著提升開源大語言模型性能。該方法在複雜指令任務中表現優於傳統獎勵模型,突破RLHF侷限性,成爲重要後訓練優化手段。
Alibaba
$2
輸入tokens/百萬
-
輸出tokens/百萬
128
上下文長度
Shanghai-ai-lab
8