近日,字節跳動豆包大模型團隊聯合M-A-P開源社區發佈SuperGPQA,一個覆蓋285個研究生級學科、包含26,529道專業問題的知識推理基準測試。該數據集不僅涵蓋數學、物理等主流學科,還首次將輕工業、農業、服務科學等長尾學科納入評估體系,填補了現有基準測試在長尾知識領域的空白。SuperGPQA已被用於揭示開源與閉源模型的性能差距,成爲AI發展的重要工具。傳統基準如MMLU和GPQA學科覆蓋不足50個,長尾學科佔比不到5%,且因數據來源單一(如維基百科)和衆包標註不可靠,難以衡量模型在
["百川智能發佈了 Baichuan-53B,一個閉源大模型,引入了搜索增強系統。","大模型面臨即時性和長尾知識的問題,而搜索增強可以輔助大模型獲取更全面的信息。","王小川和百川智能將搜索與大模型的融合作爲未來的發展重點。"]
Xai
$1.4
輸入tokens/百萬
$3.5
輸出tokens/百萬
2k
上下文長度
Anthropic
$21
$105
200
Alibaba
-
$2
$20
Bytedance
$0.8
128
Baidu
32
Tencent
$1
$4
$54
$163
1k
$0.75
256
Openai
$8.75
$70
400
Huawei
24
$8
Iflytek
$16
$1.8
$5.4
16
8