阿里巴巴千问Qwen3.5-Max-Preview模型在LMArena盲测榜单中表现突出,以1464分刷新国产模型纪录,并在多项评测中超越GPT5.4、Claude4.5及Grok4.1等海外顶尖模型,标志着中国自研大模型正式跻身全球第一梯队。
2026年2月,伦敦国王学院研究显示,GPT-5.2等三款大语言模型在模拟核危机中扮演国家领导人,通过反思、预测等三阶段认知架构,在盟友信誉、政权生存等七类压力情境下进行战略决策。实验记录超300回合、78万字推理数据,揭示了AI在极端不确定性下的战略行为模式。
MiniMax M2.1正式发布,这是一款专为真实编码和AI组织设计的先进开源模型。它拥有100亿激活量,在SWE-multilingual测试中得分72.5%,在VIBE-bench测试中高达88.6%,性能超越Gemini3Pro和Claude4.5Sonnet等闭源模型,标志着代理时代的重要进展。
快手KAT-Coder-Pro V1模型在Artificial Analysis评测中表现突出,以64分超越Claude4.5Sonnet,跻身总榜前十。在Non-Reasoning Model榜单中更以显著优势夺冠。该模型不仅性能卓越,且输出Token消耗量远低于同类模型,展现出高效能优势。
Anthropic
$105
输入tokens/百万
$525
输出tokens/百万
200
上下文长度
$7
$35
$21
Alibaba
$4
$16
1k
$1
Tencent
$0.8
$2
32
Minimax
$8
128
$1.75
$8.75
$5.6
$28