昆侖万維科技股份有限公司は先日、同社が開発した2つの新しい報酬モデル、Skywork-Reward-Gemma-2-27BとSkywork-Reward-Llama-3.1-8Bが、国際的に権威のある報酬モデル評価ベンチマークRewardBenchで卓越した性能を示したと発表しました。特にSkywork-Reward-Gemma-2-27Bモデルはトップの座を獲得し、RewardBench公式から高い評価を得ています。
テキスト分類と選好判断のための高度な報酬モデル
Skywork
Llama-3.1-8B-Instructアーキテクチャを基に構築された先進的な報酬モデルで、80Kの高品質な嗜好ペアで訓練されており、複雑なシナリオにおける嗜好問題の処理に優れています。
Meta-Llama-3.1-8B-Instructアーキテクチャに基づく先進的な報酬モデルで、複雑なシナリオにおける選好問題の処理に優れています