SuperCLUE 2025年度中文大模型基准测评报告发布,23个国内外模型参与。评测涵盖数学推理、科学推理、代码生成等六大维度。结果显示,海外闭源模型仍处领先地位,Anthropic的Claude-Opus-4.5-Reasoning以68.25分位居榜首,谷歌Gemini-3-Pro-Preview和OpenAI模型紧随其后。
智谱开源专业OCR模型GLM-OCR,仅0.9B参数实现跨级性能突破。在OmniDocBench V1.5榜单中以94.6分夺冠,逼近通用大模型Gemini-3-Pro,有效解决复杂文档解析痛点。
SuperCLUE-VLM最新榜单显示,谷歌Gemini-3-Pro以83.64分大幅领先,在视觉理解与推理方面优势明显。国产模型表现突出,商汤SenseNova V6.5Pro和字节豆包分列第二、三位,展现中国AI在多模态领域的快速进步。评测涵盖三大核心能力维度。
SuperCLUE-VLM多模态测评显示,谷歌Gemini-3-pro以83.64分夺冠,在基础认知、视觉推理和应用三大维度全面领先。国产模型表现亦受关注。