SuperCLUE發佈2025中文大模型測評報告,涵蓋數學推理、代碼生成等六大維度。結果顯示,海外閉源模型表現強勢,Anthropic的Claude-Opus-4.5-Reasoning以68.25分位居榜首。
SuperCLUE 2025年度中文大模型基準測評報告發布,23個國內外模型參與。評測涵蓋數學推理、科學推理、代碼生成等六大維度。結果顯示,海外閉源模型仍處領先地位,Anthropic的Claude-Opus-4.5-Reasoning以68.25分位居榜首,谷歌Gemini-3-Pro-Preview和OpenAI模型緊隨其後。