SuperCLUE 2025年度中文大模型基准测评报告发布,23个国内外模型参与。评测涵盖数学推理、科学推理、代码生成等六大维度。结果显示,海外闭源模型仍处领先地位,Anthropic的Claude-Opus-4.5-Reasoning以68.25分位居榜首,谷歌Gemini-3-Pro-Preview和OpenAI模型紧随其后。
国产AI Kimi加速全球化,海外收入已超国内。新一代模型K2.5发布后,全球付费用户数几天内激增4倍。在OpenRouter评测中,K2.5位列全球第三,仅次于Claude,跻身第一梯队。
商汤科技开源SenseNova-MARS模型,具备动态视觉推理与图文搜索能力,模拟侦探逻辑实现AI自主执行。该模型含8B和32B版本,在MMSearch评测中以74.2分领先,性能超越GPT-5.2,标志着AI从理解到执行的重要跨越。
蚂蚁灵波科技开源具身世界模型LingBot-VA,首次提出自回归视频-动作世界建模框架,将视频生成与机器人控制深度融合。模型可同步生成未来世界状态并输出动作序列,实现“边推演、边行动”。真机评测显示,该模型能有效应对复杂物理交互任务。
模型评测平台
领先的AI评测基准,衡量和比较AI模型性能。
大型语言模型 (LLM) 性能评测的众包开放平台
收集和梳理垂直领域的开源模型、数据集及评测基准
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
Baidu
128
$6
$24
$2
$20
MarkoRadojcic
YugoGPT-Florida 是一个基于塞尔维亚语的大语言模型,在多个评测基准中表现优异。
sbintuitions
由SB Intuitions开发的日语自回归语言模型,专门针对日语文本生成任务优化,在日语评测基准上表现优异
Ray2333
基于Llama3架构的3B参数奖励模型,在reward-bench评测中获得90.9分,性能超越多个8B奖励模型
openbmb
MiniCPM是面壁智能与清华大学自然语言处理实验室联合研发的端侧大语言模型系列,核心模型仅含12亿非词嵌入参数,在多项评测中超越更大规模的开源模型。
Amu
tao-8k-origin 是一个专注于句子相似度计算的模型,支持多种相似度度量方式,并在多个中文评测数据集上表现出色。
CausalLM
CausalLM/14B-DPO-α是一个基于因果语言模型的大规模语言模型,支持中英文文本生成任务,在MT-Bench评测中表现优异。
Skywork
天工 Skywork-13B 是在高质量清洗过滤的 3.2 万亿个多语言和代码数据上预训练的大语言模型,在多种评测和基准测试中展现出优异效果。它兼顾中文和英文表现,代码能力也有保障,为自然语言处理领域提供了强大支持。
xverse
XVERSE-7B-Chat是由深圳元象科技自主研发的70亿参数多语言大语言模型,基于XVERSE-7B模型对齐而来。该模型支持8K上下文长度,能够满足多轮对话、知识问答与摘要等需求,在多项评测中表现优异。
nguyenvulebinh
基于XLM-RoBERTa的越南语抽取式问答模型,在VLSP MRC 2021评测中排名第一