北京智源人工智能研究院(BAAI)最近推出了全球首箇中文大模型辯論平臺FlagEval Debate。這一新平臺旨在通過模型辯論這一競爭機制,爲大語言模型的能力評估提供新的度量方式。它是智源模型對戰評測服務FlagEval大模型角鬥場的擴展,目標是甄別大語言模型之間的能力差異。
2024年9月4日,北京智源人工智能研究院(BAAI)宣佈推出全球首個包含文生視頻的模型對戰評測服務——FlagEval大模型角鬥場。這一服務面向用戶開放,覆蓋了國內外約40款大模型,並支持語言問答、多模態圖文理解、文生圖、文生視頻等四大任務的自定義在線或離線評測。F
["參數量不是評判大模型的唯一標準,評測集的不同會導致排名差異巨大","主觀題比例上升也會影響排名,評測公正性容易受質疑","OpenCompass和FlagEval等第三方評測機構開始受關注","學界認爲還應考量模型魯棒性、安全性等多維度","真正全面有效的評測方式仍在探索中"]
模型評測平臺
一個由FlagEval提供的辯論空間