AIBase
首頁
AI資訊
AI產品庫
模型廣場
MCP服务
AI服務
算力市場
AI應用指南
TW

AI資訊

查看更多

智源研究院推出全球首箇中文大模型辯論平臺FlagEval Debate

北京智源人工智能研究院(BAAI)最近推出了全球首箇中文大模型辯論平臺FlagEval Debate。這一新平臺旨在通過模型辯論這一競爭機制,爲大語言模型的能力評估提供新的度量方式。它是智源模型對戰評測服務FlagEval大模型角鬥場的擴展,目標是甄別大語言模型之間的能力差異。

15.4k 1 天前
智源研究院推出全球首箇中文大模型辯論平臺FlagEval Debate

智源研究院推出包含文生視頻模型對戰評測服務:FlagEval大模型角鬥場

2024年9月4日,北京智源人工智能研究院(BAAI)宣佈推出全球首個包含文生視頻的模型對戰評測服務——FlagEval大模型角鬥場。這一服務面向用戶開放,覆蓋了國內外約40款大模型,並支持語言問答、多模態圖文理解、文生圖、文生視頻等四大任務的自定義在線或離線評測。F

16.8k 02-20
智源研究院推出包含文生視頻模型對戰評測服務:FlagEval大模型角鬥場

大模型評測亂象調查:參數規模不代表一切

["參數量不是評判大模型的唯一標準,評測集的不同會導致排名差異巨大","主觀題比例上升也會影響排名,評測公正性容易受質疑","OpenCompass和FlagEval等第三方評測機構開始受關注","學界認爲還應考量模型魯棒性、安全性等多維度","真正全面有效的評測方式仍在探索中"]

8.7k 02-23
大模型評測亂象調查:參數規模不代表一切

AI產品

查看更多
FlagEval

FlagEval

模型評測平臺

AI模型
10.3k
Debate

Debate

一個由FlagEval提供的辯論空間

學習教育
8.7k
AIBase
智啟未來,您的人工智能解決方案智庫
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2026AIBase
商務合作網站地圖