AIBase
首页
AI资讯
AI产品库
模型广场
MCP服务
AI服务
算力市场
AI应用指南
ZH

AI资讯

查看更多

苹果推出AI训练新方法 用任务清单替代人工评分显著提升模型性能

苹果公司提出RLCF强化学习新方法,用任务清单替代人工评分,显著提升大语言模型执行复杂指令的能力。该方法与RLHF形成对比,后者依赖简单人工评价。

6.4k 12-06
苹果推出AI训练新方法 用任务清单替代人工评分显著提升模型性能

苹果新研究揭示LLM对齐新范式:清单式强化学习优于传统奖励模型

苹果研究人员提出新型“清单式”强化学习方案(RLCF),通过让模型对照清单自检工作,显著提升开源大语言模型性能。该方法在复杂指令任务中表现优于传统奖励模型,突破RLHF局限性,成为重要后训练优化手段。

9.7k 12-06
苹果新研究揭示LLM对齐新范式:清单式强化学习优于传统奖励模型

模型

查看更多

Qwen_v2.5_0.5b_Instruct

Alibaba

Qwen_v2.5_0.5b_Instruct

$2

输入tokens/百万

-

输出tokens/百万

128

上下文长度

internlm2.5_1.8b_chat

Shanghai-ai-lab

internlm2.5_1.8b_chat

$2

输入tokens/百万

-

输出tokens/百万

8

上下文长度

internlm2.5_7b_chat

Shanghai-ai-lab

internlm2.5_7b_chat

$2

输入tokens/百万

-

输出tokens/百万

8

上下文长度

AIBase
智启未来,您的人工智能解决方案智库
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2025AIBase
商务合作网站地图