MiniMax 发布 M2.5 模型,这是其 M2 系列在 108 天内的第三次升级。模型开源权重同步上线魔搭 ModelScope,在编程、搜索、办公等多场景表现领先,实现了能力、效率与成本的三重突破。该版本提供从零代码使用到私有化部署的全流程方案,并附有工具调用与推理参数调优的实战指南,旨在推动低成本 Agent 时代的到来。M2.5 在多项评测中成绩突出,例如在 SWE-Bench Verified 中表现亮眼。
知名博主Tim评测字节AI视频模型Seedance 2.0,肯定其生成精度等表现,但发现两个涉及数据伦理的细节:模型能精准生成未观测到的空间盲区,并克隆未授权语音,引发行业对AI训练数据来源与隐私的担忧。
OpenAI CEO Sam Altman宣布推出编程大模型GPT-5.3-Codex,该模型在技术指标和应用层面实现突破,推动AI辅助编程进入新阶段。在SWE-Bench Pro评测中达到57%,在TerminalBench2.0和OSWorld评测中表现优异。
上海人工智能实验室发布并开源万亿参数科学多模态大模型“书生 Intern-S1-Pro”,基于“通专融合”架构 SAGE 打造,刷新开源社区参数规模纪录,在多项科学能力上实现突破,综合学科评测稳居 AI4S 领域国际前列。
模型评测平台
领先的AI评测基准,衡量和比较AI模型性能。
大型语言模型 (LLM) 性能评测的众包开放平台
收集和梳理垂直领域的开源模型、数据集及评测基准
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
Baidu
128
$2
$20
$6
$24
MarkoRadojcic
YugoGPT-Florida 是一个基于塞尔维亚语的大语言模型,在多个评测基准中表现优异。
sbintuitions
由SB Intuitions开发的日语自回归语言模型,专门针对日语文本生成任务优化,在日语评测基准上表现优异
Ray2333
基于Llama3架构的3B参数奖励模型,在reward-bench评测中获得90.9分,性能超越多个8B奖励模型
openbmb
MiniCPM是面壁智能与清华大学自然语言处理实验室联合研发的端侧大语言模型系列,核心模型仅含12亿非词嵌入参数,在多项评测中超越更大规模的开源模型。
Amu
tao-8k-origin 是一个专注于句子相似度计算的模型,支持多种相似度度量方式,并在多个中文评测数据集上表现出色。
CausalLM
CausalLM/14B-DPO-α是一个基于因果语言模型的大规模语言模型,支持中英文文本生成任务,在MT-Bench评测中表现优异。
Skywork
天工 Skywork-13B 是在高质量清洗过滤的 3.2 万亿个多语言和代码数据上预训练的大语言模型,在多种评测和基准测试中展现出优异效果。它兼顾中文和英文表现,代码能力也有保障,为自然语言处理领域提供了强大支持。
xverse
XVERSE-7B-Chat是由深圳元象科技自主研发的70亿参数多语言大语言模型,基于XVERSE-7B模型对齐而来。该模型支持8K上下文长度,能够满足多轮对话、知识问答与摘要等需求,在多项评测中表现优异。
nguyenvulebinh
基于XLM-RoBERTa的越南语抽取式问答模型,在VLSP MRC 2021评测中排名第一