谷歌Gemini 3 Pro以1501 Elo創LMArena歷史新高,超越GPT-5.1等模型,成多模態模型榜首。在科學、數學及視頻任務中表現卓越,如“人類終極考試”達37.5%,GPQA Diamond 91.9%。Deep Think模式進一步提升推理能力,通用智能測試ARC-AGI-2得分45.1%。
谷歌發佈Gemini3,首次提供100萬tokens上下文窗口,原生支持文本、圖像、視頻與代碼多模態推理。Gemini3 Pro在GPQA測試獲91.9%準確率,LMArena以1501分超越GPT-5.1與Claude4.5登頂。採用Deep Think推理模式,通過“思維簽名”產品化推理鏈,在邏輯、事實與科學推理方面表現突出。
LMArena最新AI編程模型排名顯示,Anthropic的Claude、OpenAI的GPT-5與智譜GLM-4.6並列全球第一。這些專爲編程設計的模型能顯著提升代碼編寫、調試和優化效率,推動軟件開發進步。
文心ERNIE-5.0-Preview-1022模型在LMArena大模型競技場最新排名中,成爲國內文本能力冠軍,全球並列第二。該模型在創意寫作、複雜問題理解等方面表現突出,標誌着中國在大模型技術上取得新突破,展現人工智能發展的強勁潛力。
google
$144
輸入tokens/百萬
$288
輸出tokens/百萬
32k
上下文長度