["智譜 AI 發佈了針對中文大模型的評測基準 AlignBench","AlignBench 能夠在多維度上細緻評測模型和人類意圖的對齊水平","數據集分爲 8 個大類,包括知識問答、寫作生成、角色扮演等多種類型的問題","開發者可以利用 AlignBench 進行評測,並使用評價能力較強的打分模型進行評分","通過登錄 AlignBench 網站,提交結果可以使用 CritiqueLLM 作爲評分模型進行評測"]
["智譜 AI 發佈高質量、低成本的評分模型 CritiqueLLM","傳統評價指標如 BLEU 和 ROUGE 缺乏對整體語義的把握","CritiqueLLM 提出可解釋、可擴展的文本質量評價模型","在 8 類常見任務中,CritiqueLLM 優於其他模型","CritiqueLLM 通過用戶詢問增廣、含參考文本評價數據收集、無參考文本評價數據改寫和訓練模型的方法生成評分"]