AIBase
首頁
AI資訊
AI產品庫
模型廣場
MCP服务
AI服務
算力市場
AI應用指南
數據集市
TW

AI資訊

查看更多

崑崙萬維再次開源獎勵模型Skywork-Reward-V2

2025年7月4日,崑崙萬維乘勢而上,繼續開源第二代獎勵模型Skywork-Reward-V2系列。此係列共包含8個基於不同基座模型、參數規模從6億到80億不等的獎勵模型,一經推出便在七大主流獎勵模型評測榜單中全面奪魁,成爲開源獎勵模型領域的焦點。 獎勵模型在從人類反饋中強化學習(RLHF)過程中起着關鍵作用。爲打造新一代獎勵模型,崑崙萬維構建了包含4000萬對偏好對比的混合數據集Skywork-SynPref-40M。在數據處理上,團隊採用人機協同的兩階段流程,將人工標註的高質量與模型的規模化處理能力相結合。第一階段,先構建未經驗證的初始偏好池,藉助

7.7k 7 小時前
崑崙萬維再次開源獎勵模型Skywork-Reward-V2
AIBase
智啟未來,您的人工智能解決方案智庫
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2025AIBase
商務合作網站地圖