上海人工智能实验室司南OpenCompass团队与魔搭ModelScope联合推出的大模型评测平台CompassArena(大模型竞技场)近日迎来了新升级,旨在为用户提供更科学、全面的模型评估体验。自上线以来,该平台吸引了大量社区用户参与并贡献数据,基于这些数据,CompassArena不断优化,此次升级包括全新Judge Copilot功能和榜单算法的改进,以及新增20多个全新模型。
["智源研究院开源了 JudgeLM 裁判模型,可高效评测各类大模型并输出评分","JudgeLM 与 GPT-4 相比,成本仅为 1/120,评判结果一致性达到 90% 以上","JudgeLM 可应用于纯文本、多模态等多种评判场景,并输出评分和阐述理由","JudgeLM 与参考答案的一致性最高超过了 90%,接近人类表现","智源研究院开源了训练和验证样本的数据集,用于深入研究大语言模型裁判"]
代理法官,用于自动评估任务和提供奖励信号。
加速模型评估和微调的智能评估工具
在线生成裁决,解决纠纷
root-signals
Root Judge是一款强大的中型大语言模型,专为可靠且可定制的LLM系统评估而设计。基于Llama-3.3-70B-Instruct微调,擅长成对偏好判断和带来源引用的多轮指令遵循任务。
flowaicom
Flow Judge v0.1 是一款轻量级但功能强大的 38 亿参数模型,可在多个领域对大语言模型(LLM)系统进行定制化评估。