最近、魔ま搭ModelScopeコミュニティは、言語モデルの大学レベルの数学における数学推論能力を包括的に評価するためのUGMathBenchと呼ばれる動的なベンチマークデータセットを発表しました。このデータセットの登場により、現在の大学レベルの数学分野における言語モデルの推論能力評価の空白が埋められ、研究者たちにさらなる豊富で挑戦的なテストプラットフォームを提供しました。

人工知能技術の急速な進展とともに、自然言語モデルは自動翻訳、インテリジェントなカスタマーサービス、医療、金融など多くの分野で大きな可能性を示しています。しかし、これらのモデルのパフォーマンスを正確に評価し、特にそれらの推論能力や数学問題解決能力をどう評価するかは、研究者の注目を集め続けています。近年、言語モデルの数学推論能力を評価するための複数のベンチマークデータセットが作成されてきましたが、モデルの急速な進化に伴い、そのチャレンジ性は徐々に低下してきています。

微信截图_20250510101532.png

このような背景の下、UGMathBenchデータセットが登場しました。このデータセットは、オンラインの宿題評価システムから厳選して収集、抽出、整理された多数の大学レベルの数学問題を含み、基礎算術、単変数微積分、多変数微積分、微分方程式、確率などの16の科目にわたり、合計5062問を収録しています。従来のデータセットとは異なり、UGMathBenchでは各問題に対して3つの異なるランダムバージョンが提供され、数学問題の数字を変えることで動的に変化させる問題を作成し、言語モデルの推論能力をより現実的に評価します。

評価の正確さと公平性を確保するために、研究チームは有効精度率(EAcc)、推論ギャップ(Δ)、そしてロバストネス効率(RE)という3つの重要な指標を提案しました。有効精度率は、すべてのランダムバージョンで正しく解ける問題の割合を測定します。推論ギャップは、異なるランダムバージョンの問題に対する回答の一貫性を反映し、ロバストネス効率は同じ問題の異なるランダムバージョンに適応する能力を捉えます。

UGMathBenchデータセットに基づき、研究チームは23種類の先進的な言語モデル(商業閉鎖型モデルおよびオープンソースモデル)を包括的に評価しました。評価結果によると、高度な推論能力を持つ言語モデルであっても、UGMathBenchデータセット上で大きな課題に直面することが明らかになりました。この結果は、現在の言語モデルの限界を示すだけでなく、将来より高度な推論能力を持つ言語モデル開発の重要な参考となります。

UGMathBenchデータセットの公開により、言語モデルの数学推論能力評価に新しいツールと方法が提供されるだけでなく、研究者が言語モデルの内在する推論ロジックを深く理解する手助けをします。現在、このデータセットは公開されダウンロード可能となっており、研究者や開発者は指定されたリンクからデータセットや関連技術レポートを取得し、言語モデルの数学推論分野での潜在能力を探求することができます。

データセットのダウンロードアドレス:

https://www.modelscope.cn/datasets/xinxu02/UGMathBench

https://huggingface.co/datasets/UGMathBench/ugmathbench

技術レポートのアドレス:

https://arxiv.org/abs/2501.13766