AIBase
首页
AI资讯
AI产品库
模型广场
MCP服务
AI服务
算力市场
AI应用指南
数据集市
ZH

AI资讯

查看更多

​新测试挑战 AI 智能水平:ARC-AGI-2 让顶尖模型碰壁

近日,Arc Prize 基金会发布了一项全新的测试 ——ARC-AGI-2,旨在测量人工智能(AI)模型的通用智能水平。该基金会由著名 AI 研究者 François Chollet 共同创立。根据基金会的博客,这项新测试对大多数领先的 AI 模型提出了严峻挑战。根据 Arc Prize 排行榜,诸如 OpenAI 的 o1-pro 和 DeepSeek 的 R1等 “推理型” AI 模型在 ARC-AGI-2测试中的得分仅在1% 到1.3% 之间,而更为强大的非推理模型,例如 GPT-4.5、Claude3.7Sonnet 和 Gemini2.0Flash 的得分也大约在1%。ARC-AGI 测试包含了一系列拼图问题,要求 AI 从不同颜色的

12.9k 5 小时前
​新测试挑战 AI 智能水平:ARC-AGI-2 让顶尖模型碰壁

超贵!OpenAI o3 模型单次查询竟高达 1000 美元!

OpenAI 最近推出的 o3AI 模型被认为是其最强大的人工智能产品,但其运行成本却令人咋舌,单次任务费用超过1000美元。根据 TechCrunch 的报道,这款新模型在处理复杂问题时采用了一种称为 “测试时计算” 的技术,意味着它在得出答案前会花费更多时间进行思考和探索多种可能性。因此,OpenAI 工程师希望 o3能够在复杂提示下产生更优质的回应。根据 ARC-AGI 基准测试的创始人 François Chollet 的说法,o3在其强大的 “高计算模式” 下,得分达到了87.5%,几乎是前一代 o1模型得分32% 的三倍。这表明

23.2k 2 小时前
超贵!OpenAI o3 模型单次查询竟高达 1000 美元!
AIBase
智启未来,您的人工智能解决方案智库
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2025AIBase
商务合作网站地图