SuperCLUE 2025年度中文大模型基準測評報告發布,23個國內外模型參與。評測涵蓋數學推理、科學推理、代碼生成等六大維度。結果顯示,海外閉源模型仍處領先地位,Anthropic的Claude-Opus-4.5-Reasoning以68.25分位居榜首,谷歌Gemini-3-Pro-Preview和OpenAI模型緊隨其後。
智譜開源專業OCR模型GLM-OCR,僅0.9B參數實現跨級性能突破。在OmniDocBench V1.5榜單中以94.6分奪冠,逼近通用大模型Gemini-3-Pro,有效解決複雜文檔解析痛點。
SuperCLUE-VLM最新榜單顯示,谷歌Gemini-3-Pro以83.64分大幅領先,在視覺理解與推理方面優勢明顯。國產模型表現突出,商湯SenseNova V6.5Pro和字節豆包分列第二、三位,展現中國AI在多模態領域的快速進步。評測涵蓋三大核心能力維度。
SuperCLUE-VLM多模態測評顯示,谷歌Gemini-3-pro以83.64分奪冠,在基礎認知、視覺推理和應用三大維度全面領先。國產模型表現亦受關注。