站长之家报道了一个名为 MathVerse 的新基准,用于评估多模态大型语言模型在视觉数学问题上的表现。研究发现,大多数模型对视觉输入依赖较高,但 GPT-4V 在文本和视觉方面表现出色。该基准的推出为未来 MLLMs 发展方向提供了新思路。