最好的SuperGPQA AI工具模型_精选SuperGPQA资讯

AI资讯

豆包团队开源SuperGPQA：挑战285学科AI推理极限

近日，字节跳动豆包大模型团队联合M-A-P开源社区发布SuperGPQA，一个覆盖285个研究生级学科、包含26，529道专业问题的知识推理基准测试。该数据集不仅涵盖数学、物理等主流学科，还首次将轻工业、农业、服务科学等长尾学科纳入评估体系，填补了现有基准测试在长尾知识领域的空白。SuperGPQA已被用于揭示开源与闭源模型的性能差距，成为AI发展的重要工具。传统基准如MMLU和GPQA学科覆盖不足50个，长尾学科占比不到5%，且因数据来源单一（如维基百科）和众包标注不可靠，难以衡量模型在

19.2k 4 小时前

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

友情链接:

AI Newsletters AI Tools MCP Servers AI News AI Marketing LLM Leaderboard AI Ranking

商务合作网站地图