最近、清華大学、テンセント・ミックスワン、スタンフォード大学、そしてカーネギーメロン大学の研究チームは、多モーダル大規模モデルの視覚推論能力をテストするための新しい評価ベンチマークである RBench-V を発表しました。このベンチマークの登場により、現在の評価システムにおけるモデルの視覚出力能力に関する空白を埋め、既存のモデルのパフォーマンスをより包括的に理解できるようになります。
RBench-V ベンチマークには、幾何学やグラフ理論、力学や電磁気学、複数目標の認識や経路計画など、さまざまな分野にわたる803問の問題が含まれています。従来のテキストでの回答だけを求めた評価とは異なり、今回の評価ではモデルに画像の生成や編集を要求し、推論プロセスをサポートさせることが特徴です。これにより、モデルは問題を理解するだけでなく、人類と同じように補助線を描いたり、図形の構造を観察したりして考えることが求められます。
テスト結果によると、最も優れた o3 モデルでも RBench-V で25.8%という低精度しか得られませんでした。これは人間の専門家による82.3%の正確さと比べて大幅に劣っています。Google のGemini2.5 モデルも20.2%のスコアで続きました。さらに深刻なのは、多くのオープンソースモデルが8%から10%程度の正確さしかなく、一部のモデルはランダムに選択する程度のパフォーマンスしか示していないことです。
RBench-V の研究では、現在の多モーダル大規模モデルが複雑な幾何学的問題を扱う際に、単純化された戦略を取ることが多いことが明らかになりました。人間が直感的な視覚的方法で考えるのに対し、多くのモデルはグラフィカルな問題を代数表現に抽象化し、テキストベースの推論に頼っています。この現象は、それらが画像情報に対する深い理解を持ち合わせていないことを示しています。
研究チームは、将来的なモデルは推論過程で画像を積極的に生成し、思考を支援することで「ヒューマノイド知能」を実現する必要があると指摘しています。彼らは、マルチモーダル思考チェーンやインテリジェントエージェント推論などの新しい手法が、人工知能の発展にとって重要な道筋となるかもしれないと述べています。
詳細については、プロジェクトのホームページをご覧ください: [RBench-V プロジェクトホーム](https://evalmodels.github.io/rbenchv/)。
ポイント:
🔍 研究チームが RBench-V を発表し、多モーダル大規模モデルの視覚推論能力を評価します。
📉 最も良い o3 モデルでも25.8%の精度しか得られず、人間の82.3%には遠く及ばない。
🧩 現在のモデルは視覚的な問題に対して深層理解が不足しており、推論方法の改善が必要です。