Dans le domaine de l'intelligence artificielle, les grands modèles multimodaux (MLLM) évoluent constamment. Cependant, un nouveau benchmark récemment publié, SolidGeo, a posé des défis sans précédent à ces modèles. Développé par une équipe de recherche du Institut d'informatique de l'Académie chinoise des sciences, SolidGeo se concentre sur la capacité de raisonnement en géométrie en trois dimensions et est devenu le premier benchmark systématique pour évaluer la compréhension des modèles multimodaux dans l'espace tridimensionnel.
Contrairement à la géométrie plane traditionnelle, la complexité de la géométrie en trois dimensions réside dans la nécessité de comprendre les structures tridimensionnelles et leurs relations spatiales. Cela exige non seulement une forte capacité de raisonnement spatial, mais aussi la capacité à intégrer les informations visuelles et textuelles. Le jeu de données de SolidGeo contient 3 113 problèmes de géométrie en trois dimensions de haute qualité, provenant de l'enseignement K-12 et de concours mathématiques du lycée. Chaque problème est accompagné d'une image et d'une explication détaillée, garantissant ainsi la véracité et la fiabilité des données.
Dans des expériences menées sur 26 modèles multimodaux populaires, les résultats montrent que le modèle le plus puissant, OpenAI-o1, obtient un taux de précision de seulement 49,5 % sur le test SolidGeo, ce qui reste significativement inférieur à celui des humains (77,5 %). Les performances d'autres modèles sont également inquiétantes, avec de nombreux modèles open source ayant des scores inférieurs à 30 %. En particulier, les performances des modèles sont fortement réduites sur des tâches complexes de géométrie en trois dimensions. Par exemple, sur des tâches impliquant le pliage et le dépliage de plans, le taux de précision d'OpenAI-o1 n'est que de 36,1 %. À l'inverse, certains modèles se comportent de manière inattendue sur des tâches de difficulté spécifique, ce qui pourrait indiquer un manque de capacité de généralisation lorsqu'ils traitent des problèmes simples.
Cette étude a également analysé les différences de performance des modèles en fonction des stratégies de prompt, de la difficulté des questions et de l'efficacité du raisonnement. Elle a montré que la précision des modèles diminue considérablement lorsque la difficulté des tâches augmente. L'efficacité du raisonnement est souvent réduite par des sorties trop longues, entraînant un phénomène de « sur-réflexion », ce qui pose des défis pour l'application pratique des IA.
L'annonce de SolidGeo offre non seulement une nouvelle norme d'évaluation pour les modèles d'intelligence artificielle en géométrie en trois dimensions, mais elle pousse également les modèles multimodaux à explorer davantage le domaine de l'intelligence spatiale. Avec l'amélioration des capacités des grands modèles, comment réussir des percées dans des domaines complexes comme la géométrie en trois dimensions deviendra une tâche importante pour les chercheurs à l'avenir.