AIBase
首頁
AI資訊
AI產品庫
模型廣場
MCP服务
AI服務
算力市場
AI應用指南
數據集市
TW

AI資訊

查看更多

​新測試挑戰 AI 智能水平:ARC-AGI-2 讓頂尖模型碰壁

近日,Arc Prize 基金會發布了一項全新的測試 ——ARC-AGI-2,旨在測量人工智能(AI)模型的通用智能水平。該基金會由著名 AI 研究者 François Chollet 共同創立。根據基金會的博客,這項新測試對大多數領先的 AI 模型提出了嚴峻挑戰。根據 Arc Prize 排行榜,諸如 OpenAI 的 o1-pro 和 DeepSeek 的 R1等 “推理型” AI 模型在 ARC-AGI-2測試中的得分僅在1% 到1.3% 之間,而更爲強大的非推理模型,例如 GPT-4.5、Claude3.7Sonnet 和 Gemini2.0Flash 的得分也大約在1%。ARC-AGI 測試包含了一系列拼圖問題,要求 AI 從不同顏色的

12.9k 5 小時前
​新測試挑戰 AI 智能水平:ARC-AGI-2 讓頂尖模型碰壁

超貴!OpenAI o3 模型單次查詢竟高達 1000 美元!

OpenAI 最近推出的 o3AI 模型被認爲是其最強大的人工智能產品,但其運行成本卻令人咋舌,單次任務費用超過1000美元。根據 TechCrunch 的報道,這款新模型在處理複雜問題時採用了一種稱爲 “測試時計算” 的技術,意味着它在得出答案前會花費更多時間進行思考和探索多種可能性。因此,OpenAI 工程師希望 o3能夠在複雜提示下產生更優質的迴應。根據 ARC-AGI 基準測試的創始人 François Chollet 的說法,o3在其強大的 “高計算模式” 下,得分達到了87.5%,幾乎是前一代 o1模型得分32% 的三倍。這表明

23.2k 2 小時前
超貴!OpenAI o3 模型單次查詢竟高達 1000 美元!
AIBase
智啟未來,您的人工智能解決方案智庫
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2025AIBase
商務合作網站地圖