AI模型性能與成本大比拼:Grok4與GPT-5基準測試結果深度分析
ARC獎測試顯示AI模型性能與成本差異顯著:在複雜推理任務(ARC-AGI-2)中,Grok4準確率16%優於GPT-5的9.9%,但成本高出3-5倍;在簡單測試(ARC-AGI-1)中Grok4準確率68%略勝GPT-5的65.7%,但成本仍高一倍。GPT-5輕量版Mini和Nano性能明顯下降但成本更低。值得注意的是OpenAI未公開的o3-preview模型在AGI-1測試中達80%準確率但成本極高。ARC-AGI-3測試顯示AI在交互式任務中仍存挑戰。