新測試挑戰 AI 智能水平:ARC-AGI-2 讓頂尖模型碰壁
近日,Arc Prize 基金會發布了一項全新的測試 ——ARC-AGI-2,旨在測量人工智能(AI)模型的通用智能水平。該基金會由著名 AI 研究者 François Chollet 共同創立。根據基金會的博客,這項新測試對大多數領先的 AI 模型提出了嚴峻挑戰。根據 Arc Prize 排行榜,諸如 OpenAI 的 o1-pro 和 DeepSeek 的 R1等 “推理型” AI 模型在 ARC-AGI-2測試中的得分僅在1% 到1.3% 之間,而更爲強大的非推理模型,例如 GPT-4.5、Claude3.7Sonnet 和 Gemini2.0Flash 的得分也大約在1%。ARC-AGI 測試包含了一系列拼圖問題,要求 AI 從不同顏色的