Nuevo Benchmark MathVerse para Modelos de Lenguaje Multimodales

El sitio web 站长之家 (Zhànzhǎng zhī jiā) informó sobre un nuevo punto de referencia llamado MathVerse, diseñado para evaluar el rendimiento de los grandes modelos de lenguaje multimodales (MLLMs) en problemas matemáticos visuales. El estudio reveló que la mayoría de los modelos dependen en gran medida de la entrada visual, pero GPT-4V demostró un excelente desempeño tanto en texto como en aspectos visuales.

El lanzamiento de este benchmark ofrece nuevas perspectivas para el futuro desarrollo de los MLLMs.