Im Bereich der künstlichen Intelligenz entwickeln sich multimodale große Modelle (MLLM) kontinuierlich weiter. Doch kürzlich wurde ein neuer Benchmark-Test namens SolidGeo veröffentlicht, der diese Modelle vor bisher unüberwindbare Herausforderungen stellt. Das von einem Forschungsteam des Institutes für Automatisierung der Chinesischen Akademie der Wissenschaften entwickelte SolidGeo konzentriert sich auf die Fähigkeit zur räumlichen Geometrie und ist der erste systematische Benchmark zur Bewertung der Fähigkeiten multimodaler Modelle im Verständnis dreidimensionaler Räume.
Im Vergleich zur traditionellen ebenen Geometrie liegt die Komplexität der räumlichen Geometrie darin, dass sie das Verständnis dreidimensionaler Strukturen und ihrer räumlichen Beziehungen erfordert. Dies verlangt nicht nur eine hohe räumliche Schlussfolgerungsfähigkeit, sondern auch die Fähigkeit, visuelle und textuelle Informationen zu integrieren. Das Dataset von SolidGeo enthält 3113 hochwertige Probleme der räumlichen Geometrie, die aus K-12-Bildung und Hochschulmathematikwettbewerben stammen. Jede Frage ist mit einem Bild und einer detaillierten Lösungserklärung versehen, was die Authentizität und Zuverlässigkeit der Daten gewährleistet.

In Experimenten mit 26 führenden multimodalen Modellen zeigte sich, dass das stärkste aktuelle Modell von OpenAI, OpenAI-o1, bei dem SolidGeo-Test eine Genauigkeit von nur 49,5 % erreichte. Im Vergleich zum menschlichen Wert von 77,5 % besteht immer noch ein deutlicher Abstand. Die Leistung anderer Modelle ist ebenfalls besorgniserregend, da viele Open-Source-Modelle unter 30 % liegen. Besonders bei komplexen Aufgaben der räumlichen Geometrie zeigt sich eine deutliche Verschlechterung der Leistung. Zum Beispiel betrug die Genauigkeit von OpenAI-o1 bei Aufgaben wie dem Falten und Entfalten von Ebenen nur 36,1 %. Im Vergleich dazu zeigten einige Modelle bei bestimmten Aufgaben überraschenderweise gute Ergebnisse, was darauf hindeuten könnte, dass ihre Generalisierungsfähigkeit bei einfachen Problemen begrenzt ist.

Die Studie analysierte zudem die Unterschiede in der Leistung der Modelle bei verschiedenen Prompt-Strategien, Frage-Schwierigkeitsgraden und Inferenz-Effizienz. Dabei stellte sich heraus, dass sich die Genauigkeit der meisten Modelle bei zunehmender Aufgabenschwierigkeit stark verringerte. Die Inferenz-Effizienz litt oft unter zu langen Ausgaben, was zu einem Phänomen namens „Überdenken“ führte, was Herausforderungen für die praktische Anwendung von KI darstellt.
Die Einführung von SolidGeo bietet nicht nur einen neuen Bewertungsstandard für KI-Modelle in der räumlichen Geometrie, sondern fördert auch die weitere Erforschung multimodaler Modelle im Bereich räumlicher Intelligenz. Mit der Weiterentwicklung großer Modelle wird es für Forscher zukünftig eine wichtige Aufgabe sein, in komplexen Bereichen wie der räumlichen Geometrie Fortschritte zu erzielen.