崑崙萬維科技股份有限公司近日宣佈,公司研發的兩款全新獎勵模型Skywork-Reward-Gemma-2-27B和Skywork-Reward-Llama-3.1-8B在國際權威的獎勵模型評估基準RewardBench上表現卓越,其中Skywork-Reward-Gemma-2-27B模型更是榮獲榜首,得到了RewardBench官方的高度認可。
基於Gemma-2-27B架構的先進獎勵模型
Skywork
基於Gemma-2-27B架構構建的高性能獎勵模型,使用淨化後的Skywork-Reward-Preference-80K-v0.2數據集訓練,擅長處理複雜場景中的偏好判斷。
Skywork-Reward-Gemma-2-27B是基於gemma-2-27b-it架構構建的先進獎勵模型,擅長處理複雜場景下的偏好問題。