崑崙萬維再次開源獎勵模型Skywork-Reward-V2
2025年7月4日,崑崙萬維乘勢而上,繼續開源第二代獎勵模型Skywork-Reward-V2系列。此係列共包含8個基於不同基座模型、參數規模從6億到80億不等的獎勵模型,一經推出便在七大主流獎勵模型評測榜單中全面奪魁,成爲開源獎勵模型領域的焦點。
獎勵模型在從人類反饋中強化學習(RLHF)過程中起着關鍵作用。爲打造新一代獎勵模型,崑崙萬維構建了包含4000萬對偏好對比的混合數據集Skywork-SynPref-40M。在數據處理上,團隊採用人機協同的兩階段流程,將人工標註的高質量與模型的規模化處理能力相結合。第一階段,先構建未經驗證的初始偏好池,藉助