AI基准平台Epoch AI短暂出现代号“Claude Kayak”的新模型条目,标注今日发布后迅速删除,引发全球关注。业内普遍认为这是Anthropic即将推出的旗舰模型Claude Opus4.5。作为Claude4系列最强版本,预计在复杂推理、多步任务及代码生成能力上实现大幅提升,有望在SWE-bench等评测中突破80%得分,直接对标OpenAI GPT-5.1与Google Gemini3。
商汤科技发布开源SenseNova-SI系列模型,在空间智能领域实现突破。该模型在权威评测中超越GPT-5等国际顶尖闭源模型,弥补了当前大模型在空间理解与推理方面的不足,展现出卓越性能。
百川大模型发布医疗大模型Baichuan-M2Plus,升级应用百小应并开放API接口。评测显示,该模型医疗幻觉率显著低于通用大模型,较DeepSeek降低约3倍,表现优于美国OpenEvidence应用。
上海人工智能实验室联合浙江大学推出IVR-Bench基准测试,首次专门评估大语言模型将视频转化为交互式网页代码的能力。该测试通过观看记录用户操作流程的视频,要求模型重建动态网页,填补了AI前端开发领域动态交互评测的空白,推动多模态大语言模型在真实场景中的应用。
大型语言模型 (LLM) 性能评测的众包开放平台
MarkoRadojcic
YugoGPT-Florida 是一个基于塞尔维亚语的大语言模型,在多个评测基准中表现优异。
openbmb
MiniCPM是面壁智能与清华大学自然语言处理实验室联合研发的端侧大语言模型系列,核心模型仅含12亿非词嵌入参数,在多项评测中超越更大规模的开源模型。
CausalLM
CausalLM/14B-DPO-α是一个基于因果语言模型的大规模语言模型,支持中英文文本生成任务,在MT-Bench评测中表现优异。
Skywork
天工 Skywork-13B 是在高质量清洗过滤的 3.2 万亿个多语言和代码数据上预训练的大语言模型,在多种评测和基准测试中展现出优异效果。它兼顾中文和英文表现,代码能力也有保障,为自然语言处理领域提供了强大支持。
xverse
XVERSE-7B-Chat是由深圳元象科技自主研发的70亿参数多语言大语言模型,基于XVERSE-7B模型对齐而来。该模型支持8K上下文长度,能够满足多轮对话、知识问答与摘要等需求,在多项评测中表现优异。