最好的Judge AI工具模型_精選Judge資訊

AI資訊

大模型評測平臺CompassArena升級推出全新 Judge Copilot 功能

上海人工智能實驗室司南OpenCompass團隊與魔搭ModelScope聯合推出的大模型評測平臺CompassArena（大模型競技場）近日迎來了新升級，旨在爲用戶提供更科學、全面的模型評估體驗。自上線以來，該平臺吸引了大量社區用戶參與並貢獻數據，基於這些數據，CompassArena不斷優化，此次升級包括全新Judge Copilot功能和榜單算法的改進，以及新增20多個全新模型。

16.1k 18 分鐘前

智源研究院開源 JudgeLM 裁判模型可評測各類大模型並輸出評分

["智源研究院開源了 JudgeLM 裁判模型，可高效評測各類大模型並輸出評分","JudgeLM 與 GPT-4 相比，成本僅爲 1/120，評判結果一致性達到 90% 以上","JudgeLM 可應用於純文本、多模態等多種評判場景，並輸出評分和闡述理由","JudgeLM 與參考答案的一致性最高超過了 90%，接近人類表現","智源研究院開源了訓練和驗證樣本的數據集，用於深入研究大語言模型裁判"]

13.4k 4 小時前