視覚テストでGPT-4oとSonnet-3.5が敗北、VLMは「盲目」か?
GPT-4oやGemini-1.5Proなどの視覚言語モデル(VLM)は、画像とテキスト処理において優れた性能を示し、視覚理解テストでも高いスコアを記録していました。しかし、最近の研究によると、これらのAIは人間の視覚理解能力を完全に模倣しているわけではないことが明らかになりました。「BlindTest」と名付けられたテストの結果、これらの高度なモデルは、図中の線分の交点や図形の重なりなどの基本的な図形関係の識別において、平均精度がわずか56.20%にとどまりました。