AIBase
首頁
AI資訊
AI產品庫
模型廣場
MCP服务
AI服務
算力市場
AI應用指南
TW

AI資訊

查看更多

蘋果推出AI訓練新方法 用任務清單替代人工評分顯著提升模型性能

蘋果公司提出RLCF強化學習新方法,用任務清單替代人工評分,顯著提升大語言模型執行復雜指令的能力。該方法與RLHF形成對比,後者依賴簡單人工評價。

6.4k 12-06
蘋果推出AI訓練新方法 用任務清單替代人工評分顯著提升模型性能

蘋果新研究揭示LLM對齊新範式:清單式強化學習優於傳統獎勵模型

蘋果研究人員提出新型“清單式”強化學習方案(RLCF),通過讓模型對照清單自檢工作,顯著提升開源大語言模型性能。該方法在複雜指令任務中表現優於傳統獎勵模型,突破RLHF侷限性,成爲重要後訓練優化手段。

9.7k 12-06
蘋果新研究揭示LLM對齊新範式:清單式強化學習優於傳統獎勵模型

模型

查看更多

Qwen_v2.5_0.5b_Instruct

Alibaba

Qwen_v2.5_0.5b_Instruct

$2

輸入tokens/百萬

-

輸出tokens/百萬

128

上下文長度

internlm2.5_7b_chat

Shanghai-ai-lab

internlm2.5_7b_chat

$2

輸入tokens/百萬

-

輸出tokens/百萬

8

上下文長度

internlm2.5_1.8b_chat

Shanghai-ai-lab

internlm2.5_1.8b_chat

$2

輸入tokens/百萬

-

輸出tokens/百萬

8

上下文長度

AIBase
智啟未來,您的人工智能解決方案智庫
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2025AIBase
商務合作網站地圖