SuperCLUE发布2025中文大模型测评报告,涵盖数学推理、代码生成等六大维度。结果显示,海外闭源模型表现强势,Anthropic的Claude-Opus-4.5-Reasoning以68.25分位居榜首。
SuperCLUE 2025年度中文大模型基准测评报告发布,23个国内外模型参与。评测涵盖数学推理、科学推理、代码生成等六大维度。结果显示,海外闭源模型仍处领先地位,Anthropic的Claude-Opus-4.5-Reasoning以68.25分位居榜首,谷歌Gemini-3-Pro-Preview和OpenAI模型紧随其后。
广州钛动科技自研的“钛极”问答推理模型在SuperCLUE商业营销大模型榜单中以85.82分夺冠,超越多家大厂,展现垂直领域AI的强劲实力。
SuperCLUE-VLM最新榜单显示,谷歌Gemini-3-Pro以83.64分大幅领先,在视觉理解与推理方面优势明显。国产模型表现突出,商汤SenseNova V6.5Pro和字节豆包分列第二、三位,展现中国AI在多模态领域的快速进步。评测涵盖三大核心能力维度。
领先的AI评测基准,衡量和比较AI模型性能。
Tencent
$0.8
输入tokens/百万
$2
输出tokens/百万
30
上下文长度
01-ai
-
32
Chatglm
$100
128