ARC賞の最新テスト結果によると、主流のAIモデルの性能とコストの差は顕著である。一般推論能力を評価するARC-AGI-2ベンチマークテストにおいて、GPT-5(上級)のスコアは9.9%で、1つのタスクあたりのコストは0.73ドルである。一方、Grok4(思考型)はやや優れた性能を示し、正確率は16%に達したが、コストもさらに高くなり、1つのタスクにつき2~4ドルかかる。これは複雑な推論タスクにおいてGrok4の性能が優れているものの、コストパフォーマンスはGPT-5よりも劣っていることを示している。

QQ20250808-092121.png

ARC-AGI基準におけるリーディング言語モデルの性能とコスト比較。| 図:ARC-AGI

比較的要件が低いARC-AGI-1テストでは、Grok4は再び68%の正確率でリードしており、GPT-5の65.7%をわずかに上回っている。Grok4は正確率が高いが、1つのタスクあたり約1ドルのコストであり、GPT-5の0.51ドルよりも大幅に高い。これにより、このテストではGPT-5の方がよりコスト効果が高い。ただし、xAIは価格調整によってこのギャップを縮めることも可能である。

また、報告書にはGPT-5の軽量版についても言及されている。GPT-5MiniはAGI-1およびAGI-2でのスコアはそれぞれ54.3%と4.4%であり、コストはそれぞれ0.12ドルと0.20ドルである。さらに小さいGPT-5NanoはAGI-1で16.5%(0.03ドル)、AGI-2で2.5%(0.03ドル)のスコアを記録している。

QQ20250808-092136.png

ARC-AGI-1におけるGrok4、GPT-5および小規模モデルバージョンのテスト結果。| 図:ARC賞

注目すべきは、2024年12月に公開されたo3-previewモデルが、約80%という驚異的な正確率で他モデルを圧倒していたことであるが、そのコストは他の競合よりもはるかに高かった。OpenAIはGPT-5のデモでARC賞については言及していなかったが、The Informationの報道によると、同社は後続のチャットバージョンに適応するためにo3-previewの機能を大幅に削減した可能性がある。

上述のベンチマークテストに加えて、ARC-AGI-3も進行中であり、このテストではモデルが視覚パズルゲームのようなインタラクティブな環境で反復試行を通じてタスクを解決することを求められている。人間であれば容易だが、大多数のAIエージェントは視覚パズルゲームで依然として課題に直面している。