AIBase
首頁
AI資訊
AI產品庫
模型廣場
MCP服务
AI服務
算力市場
數據集市
AI應用指南
TW

AI資訊

查看更多

AI模型性能與成本大比拼:Grok4與GPT-5基準測試結果深度分析

ARC獎測試顯示AI模型性能與成本差異顯著:在複雜推理任務(ARC-AGI-2)中,Grok4準確率16%優於GPT-5的9.9%,但成本高出3-5倍;在簡單測試(ARC-AGI-1)中Grok4準確率68%略勝GPT-5的65.7%,但成本仍高一倍。GPT-5輕量版Mini和Nano性能明顯下降但成本更低。值得注意的是OpenAI未公開的o3-preview模型在AGI-1測試中達80%準確率但成本極高。ARC-AGI-3測試顯示AI在交互式任務中仍存挑戰。

10.6k 11 小時前
AI模型性能與成本大比拼:Grok4與GPT-5基準測試結果深度分析

​新測試挑戰 AI 智能水平:ARC-AGI-2 讓頂尖模型碰壁

近日,Arc Prize 基金會發布了一項全新的測試 ——ARC-AGI-2,旨在測量人工智能(AI)模型的通用智能水平。該基金會由著名 AI 研究者 François Chollet 共同創立。根據基金會的博客,這項新測試對大多數領先的 AI 模型提出了嚴峻挑戰。根據 Arc Prize 排行榜,諸如 OpenAI 的 o1-pro 和 DeepSeek 的 R1等 “推理型” AI 模型在 ARC-AGI-2測試中的得分僅在1% 到1.3% 之間,而更爲強大的非推理模型,例如 GPT-4.5、Claude3.7Sonnet 和 Gemini2.0Flash 的得分也大約在1%。ARC-AGI 測試包含了一系列拼圖問題,要求 AI 從不同顏色的

12k 19 小時前
​新測試挑戰 AI 智能水平:ARC-AGI-2 讓頂尖模型碰壁
AIBase
智啟未來,您的人工智能解決方案智庫
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2025AIBase
商務合作網站地圖