MiniMax M2.1正式發佈,這是一款專爲真實編碼和AI組織設計的先進開源模型。它擁有100億激活量,在SWE-multilingual測試中得分72.5%,在VIBE-bench測試中高達88.6%,性能超越Gemini3Pro和Claude4.5Sonnet等閉源模型,標誌着代理時代的重要進展。
快手KAT-Coder-Pro V1模型在Artificial Analysis評測中表現突出,以64分超越Claude4.5Sonnet,躋身總榜前十。在Non-Reasoning Model榜單中更以顯著優勢奪冠。該模型不僅性能卓越,且輸出Token消耗量遠低於同類模型,展現出高效能優勢。
AI基準平臺Epoch AI短暫出現代號“Claude Kayak”的新模型條目,標註今日發佈後迅速刪除,引發全球關注。業內普遍認爲這是Anthropic即將推出的旗艦模型Claude Opus4.5。作爲Claude4系列最強版本,預計在複雜推理、多步任務及代碼生成能力上實現大幅提升,有望在SWE-bench等評測中突破80%得分,直接對標OpenAI GPT-5.1與Google Gemini3。
谷歌發佈Gemini3,首次提供100萬tokens上下文窗口,原生支持文本、圖像、視頻與代碼多模態推理。Gemini3 Pro在GPQA測試獲91.9%準確率,LMArena以1501分超越GPT-5.1與Claude4.5登頂。採用Deep Think推理模式,通過“思維簽名”產品化推理鏈,在邏輯、事實與科學推理方面表現突出。
Anthropic
$105
輸入tokens/百萬
$525
輸出tokens/百萬
200
上下文長度
$7
$35
$21
Alibaba
$4
$16
1k
$1
Tencent
$0.8
$2
32
Minimax
$8
128
$1.75
$8.75
$5.6
$28