DeepSeek-V4发布仅10小时,北京大学DCAI团队便通过最新开源的One-Eval评测框架,快速生成全量自动化评测报告。传统大模型评测流程繁琐,需耗费大量精力在搭建测试管道上,而One-Eval显著提升了效率,标志着行业进入新阶段。
DeepSeek V4中文大模型测评中,Pro版以70.98分重夺国内第一,Flash版68.82分紧随其后。测评涵盖数学推理、科学推理、代码生成、智能体任务规划、指令遵循和幻觉控制六维度,标志着国产开源模型技术新突破。
中国平安旗下平安科技的“医疗大模型3.5”在全球医疗AI评测中,以57.27分超越Meta、OpenAI等巨头,荣登第一。该评测由60国262名医生构建,包含5000组高仿真对话,重点测试模型在复杂医疗场景中的表现,彰显平安在医疗AI领域的领先地位。
阿里巴巴秘密研发的多模态大模型HappyHorse在国际评测中登顶,以1332分刷新全球视频生成Elo纪录,带动其港股早盘上涨近3%。
大型语言模型 (LLM) 性能评测的众包开放平台
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
Baidu
128
$6
$24
$2
$20
MarkoRadojcic
YugoGPT-Florida 是一个基于塞尔维亚语的大语言模型,在多个评测基准中表现优异。
openbmb
MiniCPM是面壁智能与清华大学自然语言处理实验室联合研发的端侧大语言模型系列,核心模型仅含12亿非词嵌入参数,在多项评测中超越更大规模的开源模型。
CausalLM
CausalLM/14B-DPO-α是一个基于因果语言模型的大规模语言模型,支持中英文文本生成任务,在MT-Bench评测中表现优异。
Skywork
天工 Skywork-13B 是在高质量清洗过滤的 3.2 万亿个多语言和代码数据上预训练的大语言模型,在多种评测和基准测试中展现出优异效果。它兼顾中文和英文表现,代码能力也有保障,为自然语言处理领域提供了强大支持。
xverse
XVERSE-7B-Chat是由深圳元象科技自主研发的70亿参数多语言大语言模型,基于XVERSE-7B模型对齐而来。该模型支持8K上下文长度,能够满足多轮对话、知识问答与摘要等需求,在多项评测中表现优异。