阿里巴巴千问Qwen3.5-Max-Preview模型在LMArena盲测榜单中表现突出,以1464分刷新国产模型纪录,并在多项评测中超越GPT5.4、Claude4.5及Grok4.1等海外顶尖模型,标志着中国自研大模型正式跻身全球第一梯队。
Cursor推出第二代自研编程大模型Composer2,性能大幅提升,在内部评测中表现优异,直接对标GPT和Claude。其定价策略极具竞争力,旨在挑战OpenAI等底层模型供应商,标志着AI编程工具领域竞争加剧。
微软AI首席执行官穆斯塔法·苏莱曼宣布推出第二代图像生成模型MAI-Image-2。该模型在权威评测榜单LMArena中表现强劲,跃升至全球第三位,仅次于谷歌Gemini-3.1-flash-image-preview和OpenAI GPT-image-1.5-high-fidelity。相比初代模型,第二代在综合质量上实现显著提升。
阿里千问大模型家族发布旗舰预览版Qwen3.5-Max-Preview,在全球权威评测平台LM Arena中刷新纪录,综合得分1464分。该模型在LMSYS匿名盲测中表现强劲,全球总排名第五,为中国大模型最高;其数学能力位列全球第五,展现出专家级文本处理水平。
模型评测平台
领先的AI评测基准,衡量和比较AI模型性能。
大型语言模型 (LLM) 性能评测的众包开放平台
收集和梳理垂直领域的开源模型、数据集及评测基准
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$6
$24
Baidu
128
$2
$20
MarkoRadojcic
YugoGPT-Florida 是一个基于塞尔维亚语的大语言模型,在多个评测基准中表现优异。
sbintuitions
由SB Intuitions开发的日语自回归语言模型,专门针对日语文本生成任务优化,在日语评测基准上表现优异
Ray2333
基于Llama3架构的3B参数奖励模型,在reward-bench评测中获得90.9分,性能超越多个8B奖励模型
openbmb
MiniCPM是面壁智能与清华大学自然语言处理实验室联合研发的端侧大语言模型系列,核心模型仅含12亿非词嵌入参数,在多项评测中超越更大规模的开源模型。
Amu
tao-8k-origin 是一个专注于句子相似度计算的模型,支持多种相似度度量方式,并在多个中文评测数据集上表现出色。
CausalLM
CausalLM/14B-DPO-α是一个基于因果语言模型的大规模语言模型,支持中英文文本生成任务,在MT-Bench评测中表现优异。
Skywork
天工 Skywork-13B 是在高质量清洗过滤的 3.2 万亿个多语言和代码数据上预训练的大语言模型,在多种评测和基准测试中展现出优异效果。它兼顾中文和英文表现,代码能力也有保障,为自然语言处理领域提供了强大支持。
xverse
XVERSE-7B-Chat是由深圳元象科技自主研发的70亿参数多语言大语言模型,基于XVERSE-7B模型对齐而来。该模型支持8K上下文长度,能够满足多轮对话、知识问答与摘要等需求,在多项评测中表现优异。
nguyenvulebinh
基于XLM-RoBERTa的越南语抽取式问答模型,在VLSP MRC 2021评测中排名第一