上海人工智能實驗室司南OpenCompass團隊與魔搭ModelScope聯合推出的大模型評測平臺CompassArena(大模型競技場)近日迎來了新升級,旨在爲用戶提供更科學、全面的模型評估體驗。自上線以來,該平臺吸引了大量社區用戶參與並貢獻數據,基於這些數據,CompassArena不斷優化,此次升級包括全新Judge Copilot功能和榜單算法的改進,以及新增20多個全新模型。
["智源研究院開源了 JudgeLM 裁判模型,可高效評測各類大模型並輸出評分","JudgeLM 與 GPT-4 相比,成本僅爲 1/120,評判結果一致性達到 90% 以上","JudgeLM 可應用於純文本、多模態等多種評判場景,並輸出評分和闡述理由","JudgeLM 與參考答案的一致性最高超過了 90%,接近人類表現","智源研究院開源了訓練和驗證樣本的數據集,用於深入研究大語言模型裁判"]
代理法官,用於自動評估任務和提供獎勵信號。
加速模型評估和微調的智能評估工具
在線生成裁決,解決糾紛
root-signals
Root Judge是一款強大的中型大語言模型,專為可靠且可定製的LLM系統評估而設計。基於Llama-3.3-70B-Instruct微調,擅長成對偏好判斷和帶來源引用的多輪指令遵循任務。
flowaicom
Flow Judge v0.1 是一款輕量級但功能強大的 38 億參數模型,可在多個領域對大語言模型(LLM)系統進行定製化評估。
MCP as a Judge 是一個行為型 MCP 服務器,作為 AI 編碼助手與 LLM 之間的驗證層,通過強制執行基於證據的研究、代碼質量審查和人工決策介入,確保生成更安全、高質量的代碼。