GPT-5.2在ARC-AGI-2测试中以75%准确率超越人类平均水平(60%),标志AI通用智能取得关键突破,但同时也凸显了模型在测试与落地应用间的性能差距问题。
OpenAI宣布GPT-5.2在ARC-AGI-2基准测试中超越人类基线,该测试评估AI的抽象推理和举一反三能力,而非模式记忆。这一突破标志着AI在处理新任务时已跨越“及格线”,向专家级智能迈进。
英伟达小模型NVARC在ARC-AGI2评测中以27.64%的成绩超越GPT-5Pro,且单任务成本仅20美分,远低于对手的7美元,性价比突出。其成功源于独特的零预训练深度学习方法,无需依赖大规模通用数据集。
谷歌为Gemini应用推出Gemini3Deep Think模式,面向Ultra订阅用户。该模式大幅增强推理能力,专攻复杂数学、科学及逻辑难题,挑战当前顶尖模型。在多项基准测试中表现卓越,如在“人类最后的考试”中无工具得分41.0%,在ARC-AGI-2测试中使用代码执行时成绩领先。
人工智能通用推理测试集