最好的Judge AI工具模型_精选Judge资讯

AI资讯

大模型评测平台CompassArena升级推出全新 Judge Copilot 功能

上海人工智能实验室司南OpenCompass团队与魔搭ModelScope联合推出的大模型评测平台CompassArena（大模型竞技场）近日迎来了新升级，旨在为用户提供更科学、全面的模型评估体验。自上线以来，该平台吸引了大量社区用户参与并贡献数据，基于这些数据，CompassArena不断优化，此次升级包括全新Judge Copilot功能和榜单算法的改进，以及新增20多个全新模型。

17.1k 6 天前

智源研究院开源 JudgeLM 裁判模型可评测各类大模型并输出评分

["智源研究院开源了 JudgeLM 裁判模型，可高效评测各类大模型并输出评分","JudgeLM 与 GPT-4 相比，成本仅为 1/120，评判结果一致性达到 90% 以上","JudgeLM 可应用于纯文本、多模态等多种评判场景，并输出评分和阐述理由","JudgeLM 与参考答案的一致性最高超过了 90%，接近人类表现","智源研究院开源了训练和验证样本的数据集，用于深入研究大语言模型裁判"]

12.4k 前天