最高のRLCF AIツールモデル_厳選RLCF情報 - AIBase

AIニュース

もっと見る

アップルがAIトレーニングの新しい方法を発表。タスクリストを人間の評価に置き換えることで、モデルの性能を大幅に向上

アップル社はRLCFという新しい強化学習手法を提案し、タスクリストを用いて大規模言語モデルの複雑な指示実行能力を向上させた。これは従来のRLHFとは異なるアプローチ。....

9.6k おととい

アップルがAIトレーニングの新しい方法を発表。タスクリストを人間の評価に置き換えることで、モデルの性能を大幅に向上

果新研究がLLMの整合性の新しい枠組みを明らかに：チェックリスト型の強化学習は従来の報酬モデルよりも優れている

Apple研究者が新しい「チェックリスト式」強化学習手法（RLCF）を提案。モデルが自ら作業をチェックすることで、オープンソース大規模言語モデルの性能を大幅に向上。複雑なタスクで従来の報酬モデルを上回り、RLHFの限界を突破。重要な学習後最適化手法として注目。....

9.8k 6 時間前

果新研究がLLMの整合性の新しい枠組みを明らかに：チェックリスト型の強化学習は従来の報酬モデルよりも優れている

モデル

もっと見る

internlm2.5_1.8b_chat

Shanghai-ai-lab

internlm2.5_1.8b_chat

$2

入力トークン/百万

-

出力トークン/百万

8

コンテキスト長

internlm2.5_7b_chat

Shanghai-ai-lab

internlm2.5_7b_chat

$2

入力トークン/百万

-

出力トークン/百万

8

コンテキスト長

Qwen_v2.5_0.5b_Instruct

Alibaba

Qwen_v2.5_0.5b_Instruct

$2

入力トークン/百万

-

出力トークン/百万

128

コンテキスト長

AIBase

未来を力づける、あなたの人工知能ソリューションシンクタンク

English 简体中文繁體中文にほんご

友情链接:

AI Newsletters AI Tools MCP Servers AI News AI Marketing LLM Leaderboard AI Ranking

© 2026AIBase

ビジネス協力サイトマップ