崑崙萬維科技股份有限公司近日宣佈,公司研發的兩款全新獎勵模型Skywork-Reward-Gemma-2-27B和Skywork-Reward-Llama-3.1-8B在國際權威的獎勵模型評估基準RewardBench上表現卓越,其中Skywork-Reward-Gemma-2-27B模型更是榮獲榜首,得到了RewardBench官方的高度認可。
先進的獎勵模型,用於文本分類和偏好判斷
Skywork
基於Llama-3.1-8B-Instruct架構構建的先進獎勵模型,使用80K高質量偏好對訓練,擅長處理複雜場景中的偏好問題。
基於Meta-Llama-3.1-8B-Instruct架構構建的先進獎勵模型,擅長處理複雜場景中的偏好問題