近日,字节跳动豆包大模型团队联合M-A-P开源社区发布SuperGPQA,一个覆盖285个研究生级学科、包含26,529道专业问题的知识推理基准测试。该数据集不仅涵盖数学、物理等主流学科,还首次将轻工业、农业、服务科学等长尾学科纳入评估体系,填补了现有基准测试在长尾知识领域的空白。SuperGPQA已被用于揭示开源与闭源模型的性能差距,成为AI发展的重要工具。传统基准如MMLU和GPQA学科覆盖不足50个,长尾学科占比不到5%,且因数据来源单一(如维基百科)和众包标注不可靠,难以衡量模型在
["百川智能发布了 Baichuan-53B,一个闭源大模型,引入了搜索增强系统。","大模型面临即时性和长尾知识的问题,而搜索增强可以辅助大模型获取更全面的信息。","王小川和百川智能将搜索与大模型的融合作为未来的发展重点。"]
Bytedance
-
Input tokens/M
Output tokens/M
Context Length
Tencent
$1
$4
32
Alibaba
$54
$163
1k
Openai
$8.75
$70
400
Iflytek
$2
$16
128
Google
Anthropic
$105
$525
200
$14
$56
$1050
Xai
$21
$0.8
30
Deepseek
8
Chatglm
$18
6
Baichuan
$15
$420