En el campo de la inteligencia artificial, los grandes modelos multimodales (MLLM) han estado evolucionando constantemente. Sin embargo, un nuevo benchmark recientemente lanzado -SolidGeo- ha planteado desafíos sin precedentes para estos modelos. SolidGeo, desarrollado por un equipo de investigación del Instituto de Automática de la Academia China de Ciencias, se centra en la capacidad de razonamiento geométrico tridimensional y se ha convertido en el primer estándar sistemático para evaluar la comprensión espacial de los modelos multimodales.

A diferencia de la geometría plana tradicional, la complejidad de la geometría tridimensional radica en la necesidad de comprender estructuras tridimensionales y sus relaciones espaciales. Esto no solo requiere que los modelos tengan una alta capacidad de razonamiento espacial, sino también que puedan integrar información visual y textual. El conjunto de datos de SolidGeo contiene 3113 problemas de geometría tridimensional de alta calidad, provenientes de la educación K-12 y competencias matemáticas de secundaria. Cada problema incluye una imagen y una explicación detallada, asegurando así la autenticidad y fiabilidad de los datos.

image.png

En un experimento con 26 modelos multimodales principales, los resultados mostraron que el modelo más potente de OpenAI, el OpenAI-o1, alcanzó una precisión de solo el 49,5% en las pruebas de SolidGeo, lo que representa una brecha significativa frente al 77,5% de los humanos. El rendimiento de otros modelos tampoco fue alentador, ya que muchas de las versiones de código abierto obtuvieron puntajes inferiores al 30%. Especialmente en tareas complejas de geometría tridimensional, el desempeño de los modelos se vio notablemente afectado. Por ejemplo, en tareas que involucran plegado y despliegue de planos, la precisión del OpenAI-o1 fue del 36,1%. En contraste, algunos modelos mostraron un desempeño inesperadamente bueno en tareas de cierta dificultad, lo que podría indicar que su capacidad de generalización es insuficiente para problemas simples.

image.png

El estudio también analizó en profundidad las diferencias en el rendimiento de los modelos en distintas estrategias de instrucción, dificultad de las preguntas y eficiencia del razonamiento, descubriendo que la precisión de la mayoría de los modelos disminuyó significativamente a medida que aumentaba la dificultad de la tarea. La eficiencia del razonamiento a menudo se ve afectada por respuestas demasiado largas, causando un fenómeno de "demasiado pensar", lo cual representa un desafío para la aplicación práctica de la IA.

La introducción de SolidGeo no solo proporciona un nuevo estándar para evaluar la capacidad de razonamiento geométrico tridimensional de los modelos de IA, sino que también impulsa la exploración adicional de los modelos multimodales en el ámbito de la inteligencia espacial. A medida que aumenta la capacidad de los grandes modelos, lograr avances en áreas complejas como la geometría tridimensional se convertirá en una tarea importante para los investigadores en el futuro.