昆仑万维科技股份有限公司近日宣布,公司研发的两款全新奖励模型Skywork-Reward-Gemma-2-27B和Skywork-Reward-Llama-3.1-8B在国际权威的奖励模型评估基准RewardBench上表现卓越,其中Skywork-Reward-Gemma-2-27B模型更是荣获榜首,得到了RewardBench官方的高度认可。
先进的奖励模型,用于文本分类和偏好判断
Skywork
基于Llama-3.1-8B-Instruct架构构建的先进奖励模型,使用80K高质量偏好对训练,擅长处理复杂场景中的偏好问题。
基于Meta-Llama-3.1-8B-Instruct架构构建的先进奖励模型,擅长处理复杂场景中的偏好问题