最近、OpenAIが発表したo3人工知能モデルのベンチマークテストの結果が、広く議論を呼んでいます。OpenAIは昨年12月にo3を初めて発表した際、非常に難しいFrontierMath数学問題集で4分の1以上の問題に正答できると自信満々に発表しましたが、最近の独立したテスト結果とは大きく対照的です。
Epoch研究所がo3モデルについて独立したテストを実施した結果、実際の得点はわずか10%で、OpenAIが以前発表した25%をはるかに下回りました。OpenAIの最高研究責任者であるMark Chen氏は公開デモで、o3モデルの内部テスト結果は非常に優れており、競合他社を大きく上回っていると述べ、競合他社は同じ問題集で2%未満の正解率しか達成していないとしました。しかし、この理想的な高得点は、先週正式にリリースされたバージョンではなく、より強力な計算資源を使用したo3バージョンによって達成された可能性があります。
Epochはレポートの中で、テスト結果の相違は、OpenAIがより高度な計算フレームワークと異なるテスト条件を使用したなど、複数の要因による可能性があると指摘しています。同時に、同機関は、彼らの評価は更新版のFrontierMathに基づいており、それが結果の違いにつながった可能性があると述べています。
さらに、ARC Prize基金会も声明を発表し、公開されたo3モデルは、以前テストされたプレリリース版とは大きく異なっており、公開版はチャットや製品使用に合わせて調整されており、計算レベルは一般的に小さいと述べています。通常、計算レベルが高いほど、ベンチマークテストのスコアは高くなります。
o3モデルはOpenAIのテスト基準を完全に満たすことができませんでした。しかし、OpenAIが最近発表したo3-mini-highとo4-miniモデルはFrontierMathでより優れた成績を収めているため、市場でのパフォーマンスには影響しないようです。さらに期待されるのは、OpenAIが近いうちにより強力なo3バージョンであるo3-proを発表することです。
今回の出来事は、特に製品発表のプレッシャーのある企業からのAIベンチマークテストの結果は、完全に信頼すべきではないことを改めて世間に警告するものです。競争の激しいAI業界では、各メーカーは市場シェア獲得のため、新しいモデルを急いで発表することが多く、そのためベンチマークテストの議論が増えています。