SuperCLUE發佈2025中文大模型測評報告,涵蓋數學推理、代碼生成等六大維度。結果顯示,海外閉源模型表現強勢,Anthropic的Claude-Opus-4.5-Reasoning以68.25分位居榜首。
SuperCLUE 2025年度中文大模型基準測評報告發布,23個國內外模型參與。評測涵蓋數學推理、科學推理、代碼生成等六大維度。結果顯示,海外閉源模型仍處領先地位,Anthropic的Claude-Opus-4.5-Reasoning以68.25分位居榜首,谷歌Gemini-3-Pro-Preview和OpenAI模型緊隨其後。
廣州鈦動科技自研的“鈦極”問答推理模型在SuperCLUE商業營銷大模型榜單中以85.82分奪冠,超越多家大廠,展現垂直領域AI的強勁實力。
SuperCLUE-VLM最新榜單顯示,谷歌Gemini-3-Pro以83.64分大幅領先,在視覺理解與推理方面優勢明顯。國產模型表現突出,商湯SenseNova V6.5Pro和字節豆包分列第二、三位,展現中國AI在多模態領域的快速進步。評測涵蓋三大核心能力維度。
領先的AI評測基準,衡量和比較AI模型性能。
Tencent
$0.8
輸入tokens/百萬
$2
輸出tokens/百萬
30
上下文長度
01-ai
-
32
Chatglm
$100
128