Na área de inteligência artificial, os grandes modelos multimodais (MLLM) têm evoluído constantemente. No entanto, um novo benchmark recentemente lançado - SolidGeo - trouxe desafios sem precedentes para esses modelos. O SolidGeo, desenvolvido pela equipe de pesquisa do Instituto de Automação da Academia Chinesa de Ciências, se concentra na capacidade de raciocínio geométrico tridimensional e tornou-se o primeiro benchmark sistemático para avaliar a compreensão de modelos multimodais no espaço tridimensional.

Em comparação com a geometria plana tradicional, a complexidade da geometria tridimensional reside em sua necessidade de compreender estruturas tridimensionais e suas relações espaciais. Isso não só exige que os modelos tenham uma alta capacidade de raciocínio espacial, mas também que sejam capazes de integrar informações visuais e textuais. O conjunto de dados do SolidGeo contém 3113 problemas de geometria tridimensional de alta qualidade, provenientes da educação K-12 e competições matemáticas do ensino médio. Cada questão é acompanhada por uma imagem e uma explicação detalhada, garantindo a autenticidade e a confiabilidade dos dados.

image.png

Em experimentos com 26 modelos multimodais principais, os resultados mostraram que o modelo mais forte, o OpenAI-o1, obteve uma taxa de acerto de apenas 49,5% no teste SolidGeo, o que representa uma diferença significativa em comparação aos 77,5% dos humanos. O desempenho de outros modelos também não é promissor, com muitos modelos de código aberto obtendo pontuações abaixo de 30%. Especialmente nas tarefas complexas de geometria tridimensional, o desempenho dos modelos cai drasticamente. Por exemplo, na tarefa de dobragem e expansão de planos, a taxa de acerto do OpenAI-o1 foi de apenas 36,1%. Em contraste, alguns modelos tiveram desempenho surpreendentemente bom em tarefas específicas de dificuldade elevada, o que pode indicar que sua capacidade de generalização é limitada ao lidar com problemas simples.

image.png

O estudo também analisou as diferenças nas performances dos modelos em diferentes estratégias de prompt, dificuldade das questões e eficiência do raciocínio, descobrindo que a maioria dos modelos apresenta uma queda significativa na taxa de acerto quando a dificuldade da tarefa aumenta. A eficiência do raciocínio frequentemente diminui devido à saída excessivamente longa, levando a um fenômeno conhecido como "excesso de pensamento", o que traz desafios para a aplicação prática da IA.

A introdução do SolidGeo não apenas fornece um novo padrão de avaliação para modelos de IA em raciocínio geométrico tridimensional, mas também impulsiona a exploração adicional dos modelos multimodais na área de inteligência espacial. À medida que a capacidade dos grandes modelos melhora, como alcançar avanços em áreas complexas como a geometria tridimensional se tornará uma tarefa importante para os pesquisadores no futuro.