《自然》杂志报道,GPT-4o 在“人类终极考试”中仅得 2.7 分(满分 100),表现最佳 AI 模型也仅 8 分。这一结果引发对 AI 真实能力的质疑。传统测试难以反映真实水平,主要因“基准饱和”问题。
谷歌Gemini 3 Pro以1501 Elo创LMArena历史新高,超越GPT-5.1等模型,成多模态模型榜首。在科学、数学及视频任务中表现卓越,如“人类终极考试”达37.5%,GPQA Diamond 91.9%。Deep Think模式进一步提升推理能力,通用智能测试ARC-AGI-2得分45.1%。
国产AI公司月之暗面开源思考型模型Kimi K2Thinking,在HLE基准测试中以44.9%得分超越GPT-5等国际闭源模型,同时训练成本仅460万美元,展现高性价比优势,推动AI成本革命。