O site 站长之家 reportou um novo benchmark chamado MathVerse, projetado para avaliar o desempenho de grandes modelos de linguagem multimodais (MLLMs) em problemas de matemática visual. A pesquisa descobriu que a maioria dos modelos depende fortemente da entrada visual, mas o GPT-4V se destacou tanto no texto quanto na entrada visual.
O lançamento deste benchmark oferece novas perspectivas para o desenvolvimento futuro de MLLMs.