DeepSeek宣布其旗舰大模型V4-Pro永久降价75%,原限时2.5折优惠转为永久定价。第三方评测显示,该模型凭借此降价登顶全球AI性价比榜首,性能碾压美系竞品,凸显中国AI在成本与效率上的绝对优势。
李飞飞团队发布ESI-Bench,被誉为具身智能界的“ImageNet”。该基准揭示当前大模型在物理空间交互中的致命短板。与传统依赖最优视角图片的被动感知评测不同,ESI-Bench聚焦于模型的空间认知能力,而非单纯视觉识别,为具身智能设立了新标杆。
通义实验室发布新一代AI Agent基座大模型Qwen3.7-Max,在多项评测中获国内第一,旨在解决智能体长链路运行中断、崩溃问题。在未知硬件ZW-M890L PPU的极限压力测试中,该模型无文档和先验数据,凭运行时反馈展现长程策略连贯性与泛化力,连续运行35小时、1158次工具调用零中断。
腾讯混元大模型联合故宫博物院等机构推出“Chronicles-OCR”,这是业界首个覆盖汉字“七体之变”演化轨迹的古文字感知评测基准。数据集由专家多层交叉标注,包含2800张图像,旨在测试AI对甲骨文等古文字的识别能力,推动人工智能理解汉字从龟甲刻痕到现代代码的完整演变。
模型评测平台
领先的AI评测基准,衡量和比较AI模型性能。
大型语言模型 (LLM) 性能评测的众包开放平台
收集和梳理垂直领域的开源模型、数据集及评测基准
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
MarkoRadojcic
YugoGPT-Florida 是一个基于塞尔维亚语的大语言模型,在多个评测基准中表现优异。
sbintuitions
由SB Intuitions开发的日语自回归语言模型,专门针对日语文本生成任务优化,在日语评测基准上表现优异
Ray2333
基于Llama3架构的3B参数奖励模型,在reward-bench评测中获得90.9分,性能超越多个8B奖励模型
openbmb
MiniCPM是面壁智能与清华大学自然语言处理实验室联合研发的端侧大语言模型系列,核心模型仅含12亿非词嵌入参数,在多项评测中超越更大规模的开源模型。
Amu
tao-8k-origin 是一个专注于句子相似度计算的模型,支持多种相似度度量方式,并在多个中文评测数据集上表现出色。
CausalLM
CausalLM/14B-DPO-α是一个基于因果语言模型的大规模语言模型,支持中英文文本生成任务,在MT-Bench评测中表现优异。
Skywork
天工 Skywork-13B 是在高质量清洗过滤的 3.2 万亿个多语言和代码数据上预训练的大语言模型,在多种评测和基准测试中展现出优异效果。它兼顾中文和英文表现,代码能力也有保障,为自然语言处理领域提供了强大支持。
xverse
XVERSE-7B-Chat是由深圳元象科技自主研发的70亿参数多语言大语言模型,基于XVERSE-7B模型对齐而来。该模型支持8K上下文长度,能够满足多轮对话、知识问答与摘要等需求,在多项评测中表现优异。
nguyenvulebinh
基于XLM-RoBERTa的越南语抽取式问答模型,在VLSP MRC 2021评测中排名第一