苹果推出AI训练新方法用任务清单替代人工评分显著提升模型性能

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Aug 26, 2025

苹果公司研究团队近日在最新论文中提出了一种名为"基于清单反馈的强化学习"（RLCF）的创新训练方法，通过用具体任务清单替代传统的人工点赞评分机制，大幅提升了大语言模型执行复杂指令的能力。

据了解，RLCF全称为Reinforcement Learning from Checklist Feedback，与目前广泛采用的"人类反馈强化学习"（RLHF）方法形成鲜明对比。传统RLHF方法主要依赖人工进行简单的点赞或点踩评价，而RLCF则为每条用户指令生成详细的检查清单，并按0-100分的标准对各项内容进行精确评分，以此作为模型优化的指导依据。

苹果研究团队选择了强指令跟随模型Qwen2.5-7B-Instruct作为测试对象，并在五个常用评测基准上进行了全面验证。测试结果显示，RLCF是唯一在所有测试项目中都取得性能提升的训练方案。

具体数据显示，在FollowBench测试中，硬性满意率提升了4个百分点。InFoBench评分提高6点，Arena-Hard胜率增加3点。在某些特定任务中，性能提升幅度最高达到8.2%。这些数据表明，清单反馈方法在处理复杂多步骤任务时表现尤为突出。

在技术实现方面，苹果团队的清单生成过程颇具创新性。他们采用更大规模的Qwen2.5-72B-Instruct模型，结合现有研究方法，为13万条指令构建了名为"WildChecklists"的专用数据集。清单内容设计为明确的二元判断项，例如"是否翻译成西班牙语"等具体要求。随后，大模型对候选回答进行逐项评分，通过综合加权处理后形成训练奖励信号，指导小模型的学习优化过程。

不过，苹果研究人员也坦率承认了该方法的局限性。首先，RLCF需要依赖更强大的模型作为评判标准，这在计算资源受限的场景下可能面临实施困难。其次，该方法专门针对复杂指令执行能力的提升而设计，并非用于安全对齐目的，因此无法替代现有的安全性评估和调优机制。对于其他类型的AI任务，RLCF方法的适用性还需要进一步的实验验证。

业界专家认为，苹果此次提出的RLCF方法为AI模型训练提供了新的思路，特别是在处理复杂多步骤任务方面展现出明显优势。随着技术的进一步完善，这一方法有望在实际应用中发挥更大作用。

美国推出 AI 科研计划公布 26 项关键科技挑战聚焦核聚变与量子等领域

美国推出“创世纪”AI科研计划，旨在巩固其在人工智能及前沿科技领域的领先地位。该计划涵盖26项关键科技挑战，聚焦科学发现、能源开发和国家安全三大方向，核心是借助AI技术加速科研突破，以实现“让美国再次伟大”的科技目标。所有挑战均以能为美国民众带来实际可衡量利益为筛选标准。

哲学博士为 Claude 注入数字灵魂，Anthropic 探索 AI 伦理新路径

Anthropic公司聘请哲学博士阿曼达·阿斯克尔为AI聊天机器人Claude塑造人格与道德体系。她通过非技术手段，如持续对话和设计大量提示词，为Claude建立专属道德准则，旨在赋予其明辨是非的能力。这一独特探索在AI伦理领域引发关注，试图为AI注入“数字灵魂”。

封堵提示注入漏洞！OpenAI 为 ChatGPT 新增两大高级安全防护措施

OpenAI为ChatGPT新增两项高级安全防护措施，以应对提示注入攻击风险。新措施基于现有安全体系，包括沙箱机制和URL数据外泄防护。首个措施是面向高安全需求用户的可选锁定模式，旨在防止第三方诱导AI执行恶意指令或泄露敏感信息。

AI新闻资讯

最新AI日报

AI 商用·开源产品库

AI 产品排行榜

AI产品提交

AI工具导航

模型库

大模型排行榜

模型供应商

大模型选型对比

大模型费用计算器

大模型竞技场

MCP服务端

MCP客户端

MCP教程与实践

MCP排行榜

MCP服务提交

MCP实验场

MCP服务调试器

GEO全景分析平台

GEO品牌监控分析

GEO排名查询工具

GEO推广链接检测

GEO排名优化系统

GEO 大模型推荐优化

模型个人电脑配置检测器

模型部署服务器配置计算器

苹果推出AI训练新方法 用任务清单替代人工评分显著提升模型性能

AIbase基地

本文来自AIbase日报

相关AI新闻推荐

OpenAI 删除 AI 安全造福人类核心承诺

美国推出 AI 科研计划 公布 26 项关键科技挑战聚焦核聚变与量子等领域

哲学博士为 Claude 注入数字灵魂，Anthropic 探索 AI 伦理新路径

Spotify 顶尖开发者告别手动编码，AI 成核心编程生产力

谷歌 Gemini 遇大规模蒸馏攻击 单次超 10 万次提示泄露核心逻辑

5-6 个月完成制作！中国首部 AIGC 动画电影《团圆令》2 月 28 日全国上映

苹果将推 Sales Coach 销售培训应用 内置 AI 助手赋能门店员工

封堵提示注入漏洞！OpenAI 为 ChatGPT 新增两大高级安全防护措施

80 万用户受影响！OpenAI 正式停用含 GPT-4o 在内的五款旧版 ChatGPT 模型

多重福利 + 独家玩法！海螺 AI 上线马年新春内容矩阵

相关AI新闻推荐

OpenAI 删除 AI 安全造福人类核心承诺

美国推出 AI 科研计划 公布 26 项关键科技挑战聚焦核聚变与量子等领域

哲学博士为 Claude 注入数字灵魂，Anthropic 探索 AI 伦理新路径

Spotify 顶尖开发者告别手动编码，AI 成核心编程生产力

谷歌 Gemini 遇大规模蒸馏攻击 单次超 10 万次提示泄露核心逻辑

5-6 个月完成制作！中国首部 AIGC 动画电影《团圆令》2 月 28 日全国上映

苹果将推 Sales Coach 销售培训应用 内置 AI 助手赋能门店员工

封堵提示注入漏洞！OpenAI 为 ChatGPT 新增两大高级安全防护措施

80 万用户受影响！OpenAI 正式停用含 GPT-4o 在内的五款旧版 ChatGPT 模型

多重福利 + 独家玩法！海螺 AI 上线马年新春内容矩阵

苹果推出AI训练新方法用任务清单替代人工评分显著提升模型性能

美国推出 AI 科研计划公布 26 项关键科技挑战聚焦核聚变与量子等领域

谷歌 Gemini 遇大规模蒸馏攻击单次超 10 万次提示泄露核心逻辑

苹果将推 Sales Coach 销售培训应用内置 AI 助手赋能门店员工

美国推出 AI 科研计划公布 26 项关键科技挑战聚焦核聚变与量子等领域

谷歌 Gemini 遇大规模蒸馏攻击单次超 10 万次提示泄露核心逻辑

苹果将推 Sales Coach 销售培训应用内置 AI 助手赋能门店员工