GPT-5.2在ARC-AGI-2測試中以75%準確率超越人類平均水平(60%),標誌AI通用智能取得關鍵突破,但同時也凸顯了模型在測試與落地應用間的性能差距問題。
OpenAI宣佈GPT-5.2在ARC-AGI-2基準測試中超越人類基線,該測試評估AI的抽象推理和舉一反三能力,而非模式記憶。這一突破標誌着AI在處理新任務時已跨越“及格線”,向專家級智能邁進。
英偉達小模型NVARC在ARC-AGI2評測中以27.64%的成績超越GPT-5Pro,且單任務成本僅20美分,遠低於對手的7美元,性價比突出。其成功源於獨特的零預訓練深度學習方法,無需依賴大規模通用數據集。
谷歌爲Gemini應用推出Gemini3Deep Think模式,面向Ultra訂閱用戶。該模式大幅增強推理能力,專攻複雜數學、科學及邏輯難題,挑戰當前頂尖模型。在多項基準測試中表現卓越,如在“人類最後的考試”中無工具得分41.0%,在ARC-AGI-2測試中使用代碼執行時成績領先。
人工智能通用推理測試集