アップル社はRLCFという新しい強化学習手法を提案し、タスクリストを用いて大規模言語モデルの複雑な指示実行能力を向上させた。これは従来のRLHFとは異なるアプローチ。....
Apple研究者が新しい「チェックリスト式」強化学習手法(RLCF)を提案。モデルが自ら作業をチェックすることで、オープンソース大規模言語モデルの性能を大幅に向上。複雑なタスクで従来の報酬モデルを上回り、RLHFの限界を突破。重要な学習後最適化手法として注目。....
Shanghai-ai-lab
$2
入力トークン/百万
-
出力トークン/百万
8
コンテキスト長
Alibaba
128