AI模型性能与成本大比拼:Grok4与GPT-5基准测试结果深度分析
ARC奖测试显示AI模型性能与成本差异显著:在复杂推理任务(ARC-AGI-2)中,Grok4准确率16%优于GPT-5的9.9%,但成本高出3-5倍;在简单测试(ARC-AGI-1)中Grok4准确率68%略胜GPT-5的65.7%,但成本仍高一倍。GPT-5轻量版Mini和Nano性能明显下降但成本更低。值得注意的是OpenAI未公开的o3-preview模型在AGI-1测试中达80%准确率但成本极高。ARC-AGI-3测试显示AI在交互式任务中仍存挑战。