MiniMax M2.1正式发布,这是一款专为真实编码和AI组织设计的先进开源模型。它拥有100亿激活量,在SWE-multilingual测试中得分72.5%,在VIBE-bench测试中高达88.6%,性能超越Gemini3Pro和Claude4.5Sonnet等闭源模型,标志着代理时代的重要进展。
快手KAT-Coder-Pro V1模型在Artificial Analysis评测中表现突出,以64分超越Claude4.5Sonnet,跻身总榜前十。在Non-Reasoning Model榜单中更以显著优势夺冠。该模型不仅性能卓越,且输出Token消耗量远低于同类模型,展现出高效能优势。
AI基准平台Epoch AI短暂出现代号“Claude Kayak”的新模型条目,标注今日发布后迅速删除,引发全球关注。业内普遍认为这是Anthropic即将推出的旗舰模型Claude Opus4.5。作为Claude4系列最强版本,预计在复杂推理、多步任务及代码生成能力上实现大幅提升,有望在SWE-bench等评测中突破80%得分,直接对标OpenAI GPT-5.1与Google Gemini3。
谷歌发布Gemini3,首次提供100万tokens上下文窗口,原生支持文本、图像、视频与代码多模态推理。Gemini3 Pro在GPQA测试获91.9%准确率,LMArena以1501分超越GPT-5.1与Claude4.5登顶。采用Deep Think推理模式,通过“思维签名”产品化推理链,在逻辑、事实与科学推理方面表现突出。
Anthropic
$105
输入tokens/百万
$525
输出tokens/百万
200
上下文长度
$7
$35
$21
Alibaba
$4
$16
1k
$1
Tencent
$0.8
$2
32
Minimax
$8
128
$1.75
$8.75
$5.6
$28