マルチモーダル大規模モデルの視覚推論能力評価:o3 は 25.8% のスコアしか獲得できなかった
このほど、清華大学、テンセント・ハウン、スタンフォード大学およびキャロライナ州立大学の研究チームによって、多模態大規模モデルの視覚推論能力をテストする新しい評価基準「RBench-V」が発表されました。この基準の登場により、現在の評価システムにおけるモデルの視覚出力能力に関する空白を埋め、既存モデルの性能をより包括的に理解できるようになります。「RBench-V」の基準テストには、幾何学とグラフ理論、力学と電磁気学、マルチターゲット認識と経路計画など、複数の分野から803問の問題が含まれています。