人工知能の分野において、マルチモーダル大規模モデル(MLLM)は常に進化し続けてきたが、最近公開された新しいベンチマークテスト「SolidGeo」により、これらのモデルに過去になかった課題が提示されている。中国科学技術大学自動化研究所の研究チームによって開発されたSolidGeoは、立体幾何の推論能力を専門的に評価するものであり、多モーダルモデルが3次元空間を理解する能力を体系的に評価する最初のベンチマークとして注目を集めている。

従来の平面幾何と比較して、立体幾何の複雑さは3次元構造およびその空間的関係性を理解することにある。これには高い空間推論能力に加え、視覚情報とテキスト情報を統合できる能力も求められる。SolidGeoのデータセットには、K-12教育や高校数学コンテストから収集された3,113の高品質な立体幾何問題が含まれており、それぞれの問題には画像と詳細な解説が添付されており、データの信頼性と正確性を確保している。

image.png

26種類の主要なマルチモーダルモデルを対象とした実験では、現在最も強力なOpenAI-o1モデルでも、SolidGeoテストにおける正答率はわずか49.5%にとどまり、人間の77.5%と比べて明らかに差があることが判明した。他のモデルの成績も芳しくなく、多くのオープンソースモデルのスコアは30%を下回っている。特に複雑な立体幾何のタスクにおいては、モデルの性能が大きく低下している。例えば、平面の折り畳みや展開といったタスクでは、OpenAI-o1の正答率はわずか36.1%にとどまっている。一方で、特定の難易度のタスクでは一部のモデルが予期せぬほど優れたパフォーマンスを示しており、これは単純な問題に対して汎化能力が不足している可能性を示唆している。

image.png

この研究では、モデルが異なるプロンプト戦略、問題の難易度、推論効率に対する性能の違いについても詳細に分析し、大多数のモデルがタスクの難易度が上がると正答率が大幅に低下することを確認した。また、推論効率は出力が長くなることによって低下することがあり、「過剰な思考」という現象を引き起こすため、AIの実用的な応用にとって課題となっている。

SolidGeoの登場により、AIモデルの立体幾何推論能力に新たな評価基準が提供され、マルチモーダルモデルの空間知能分野でのさらなる探求が促進されることとなった。大規模モデルの能力が向上していく中で、立体幾何などの複雑な領域での突破が今後の研究者の重要な課題となるだろう。