大学入学試験(高考)が近づくにつれ、数学の試験は再び受験生たちにとって「魔物」になりました。この熾烈な競争の中で、6つの主要な人工知能モデルも挑戦に参加しました。それらは、字節跳動の「豆包」、テンセントの「元宝」、アリクラウドの「通義」、百度の「文心 X1Turbo」、深層求索の「DeepSeek」、そしてOpenAIの「o3」です。今回のテストでは、2025年新課程基準Ⅰ巻の14問の客観問題を使用し、合計得点は73点で、単選題、複選題、および穴埋め問題が含まれています。

image.png

公平性を確保するために、すべてのモデルはシステムのヒントやインターネット検索を利用することはできず、それぞれが一度だけ解答するという制約がありました。厳しい競争の末、結果は予想外でした。「豆包」と「元宝」がそれぞれ68点で並んでトップとなり、優れた推論能力を見せつけました。「DeepSeek」と「通義」はやや劣勢で、それぞれ63点と62点で終了しました。「文心 X1」と「o3」は残念ながら期待外れで、特に「o3」はわずか34点しか獲得せず、国内の高校入試問題への適応力の欠如が明らかになりました。

image.png

具体的な問題形式でのパフォーマンスを見ると、「豆包」「通義」「元宝」が単選題でそれぞれ35点を取り、輝かしい成果を収めました。「DeepSeek」は2問ミスをして30点、「o3」は滑り止めの結果となり、単選題ではわずか20点に留まりました。複選題では、「豆包」「DeepSeek」「元宝」が完璧なパフォーマンスを発揮し、3問とも正解を出し、高い安定性を見せました。「通義」は速さこそ見せましたが、重要な局面での判断ミスにより、結果的に不十分な点数に終わっています。

今回のテストは、各AIモデルの高校入試数学に対する潜在力と弱点を示すだけでなく、推論能力や反省能力の進化を反映しています。昨年と比較して、これらのモデルは細部の処理、公式の適用、論理的な推論において顕著な改善が見られました。それでもまだいくつかの誤りや課題がありますが、今回の競技は未来のAI数学能力の基礎を築く上で重要な役割を果たしました。