阿里巴巴千問Qwen3.5-Max-Preview模型在LMArena盲測榜單中表現突出,以1464分刷新國產模型紀錄,並在多項評測中超越GPT5.4、Claude4.5及Grok4.1等海外頂尖模型,標誌着中國自研大模型正式躋身全球第一梯隊。
2026年2月,倫敦國王學院研究顯示,GPT-5.2等三款大語言模型在模擬核危機中扮演國家領導人,通過反思、預測等三階段認知架構,在盟友信譽、政權生存等七類壓力情境下進行戰略決策。實驗記錄超300回合、78萬字推理數據,揭示了AI在極端不確定性下的戰略行爲模式。
MiniMax M2.1正式發佈,這是一款專爲真實編碼和AI組織設計的先進開源模型。它擁有100億激活量,在SWE-multilingual測試中得分72.5%,在VIBE-bench測試中高達88.6%,性能超越Gemini3Pro和Claude4.5Sonnet等閉源模型,標誌着代理時代的重要進展。
快手KAT-Coder-Pro V1模型在Artificial Analysis評測中表現突出,以64分超越Claude4.5Sonnet,躋身總榜前十。在Non-Reasoning Model榜單中更以顯著優勢奪冠。該模型不僅性能卓越,且輸出Token消耗量遠低於同類模型,展現出高效能優勢。
Anthropic
$105
輸入tokens/百萬
$525
輸出tokens/百萬
200
上下文長度
$7
$35
$21
Alibaba
$4
$16
1k
$1
Tencent
$0.8
$2
32
Minimax
$8
128
$1.75
$8.75
$5.6
$28