谷歌Gemini 3 Pro以1501 Elo创LMArena历史新高,超越GPT-5.1等模型,成多模态模型榜首。在科学、数学及视频任务中表现卓越,如“人类终极考试”达37.5%,GPQA Diamond 91.9%。Deep Think模式进一步提升推理能力,通用智能测试ARC-AGI-2得分45.1%。
谷歌发布Gemini3,首次提供100万tokens上下文窗口,原生支持文本、图像、视频与代码多模态推理。Gemini3 Pro在GPQA测试获91.9%准确率,LMArena以1501分超越GPT-5.1与Claude4.5登顶。采用Deep Think推理模式,通过“思维签名”产品化推理链,在逻辑、事实与科学推理方面表现突出。
LMArena最新AI编程模型排名显示,Anthropic的Claude、OpenAI的GPT-5与智谱GLM-4.6并列全球第一。这些专为编程设计的模型能显著提升代码编写、调试和优化效率,推动软件开发进步。
文心ERNIE-5.0-Preview-1022模型在LMArena大模型竞技场最新排名中,成为国内文本能力冠军,全球并列第二。该模型在创意写作、复杂问题理解等方面表现突出,标志着中国在大模型技术上取得新突破,展现人工智能发展的强劲潜力。
google
$144
输入tokens/百万
$288
输出tokens/百万
32k
上下文长度