AIBase
首頁
AI資訊
AI產品庫
模型廣場
MCP服务
AI服務
算力市場
AI應用指南
TW

AI資訊

查看更多

豆包團隊開源SuperGPQA:挑戰285學科AI推理極限

近日,字節跳動豆包大模型團隊聯合M-A-P開源社區發佈SuperGPQA,一個覆蓋285個研究生級學科、包含26,529道專業問題的知識推理基準測試。該數據集不僅涵蓋數學、物理等主流學科,還首次將輕工業、農業、服務科學等長尾學科納入評估體系,填補了現有基準測試在長尾知識領域的空白。SuperGPQA已被用於揭示開源與閉源模型的性能差距,成爲AI發展的重要工具。傳統基準如MMLU和GPQA學科覆蓋不足50個,長尾學科佔比不到5%,且因數據來源單一(如維基百科)和衆包標註不可靠,難以衡量模型在

16.2k 3 天前
豆包團隊開源SuperGPQA:挑戰285學科AI推理極限
AIBase
智啟未來,您的人工智能解決方案智庫
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2025AIBase
商務合作網站地圖