Kürzlich hat die ModelScope-Community von Magenta eine neue dynamische Benchmark-Datensammlung namens UGMathBench veröffentlicht, die dazu dient, die mathematische Schlussfolgerungsstärke von Sprachmodellen in einer Vielzahl von Studiengängen auf Bachelor-Niveau zu bewerten. Diese Datensammlung schließt eine Lücke im Bereich der Bewertung der deduktiven Fähigkeiten von Sprachmodellen in der Bachelor-Mathematik und bietet Forschern eine reichere und herausforderndere Testplattform.
Bei der raschen Entwicklung künstlicher Intelligenztechnologien haben natürliche Sprachmodelle im Bereich automatischer Übersetzung, intelligente Kundendienste, Medizin und Finanzen erhebliches Potenzial gezeigt. Doch wie man diese Modelle genau bewerten kann, insbesondere ihre Schlussfolgerungsstärke und ihr Potenzial zur Lösung mathematischer Probleme, bleibt ein zentrales Thema für Forscher. In den letzten Jahren wurden verschiedene Benchmark-Datensätze entwickelt, um die mathematische Schlussfolgerungsstärke von Sprachmodellen zu testen. Allerdings verlieren diese Datensätze mit der fortschreitenden Entwicklung der Modelle zunehmend an Herausforderung.
In diesem Kontext wurde die Datensammlung UGMathBench entwickelt. Sie enthält eine große Anzahl von Studienaufgaben aus dem Bereich Bachelor-Mathematik, die aus einem Online-Hausaufgabenbewertungssystem sorgfältig gesammelt, extrahiert und organisiert wurden. Die Aufgaben decken 16 Themengebiete ab, darunter elementare Arithmetik, eindimensionale und mehrdimensionale Analysis, Differentialgleichungen und Wahrscheinlichkeitstheorie, wobei insgesamt 5062 Fragen enthalten sind. Anders als frühere Datensätze bietet UGMathBench für jede Frage drei verschiedene zufällige Versionen, die durch Änderungen der Zahlen in den mathematischen Aufgaben dynamisch variieren, um das Schlussfolgerungsvermögen der Sprachmodelle realistischer zu evaluieren.
Um die Bewertungssicherheit und Fairness sicherzustellen, stellte das Forscherteam drei entscheidende Indikatoren vor: Effiziente Genauigkeit (EAcc), Deduktionslücke (Δ) und Robustheitsleistung (RE). Die effiziente Genauigkeit misst die Proportion von Fragen, die von den Sprachmodellen korrekt gelöst werden können, bei allen zufälligen Versionen; die Deduktionslücke spiegelt die Konsistenz wider, mit der die Sprachmodelle unterschiedliche zufällige Versionen lösen; die Robustheitsleistung erfasst weiterhin die Fähigkeit der Modelle, sich an gleiche Aufgaben mit verschiedenen zufälligen Versionen anzupassen.
Basiert auf der UGMathBench-Datensammlung wurde eine umfassende Evaluierung von 23 fortschrittlichen Sprachmodellen durchgeführt, einschließlich kommerzieller geschlossener und Open-Source-Modelle. Die Ergebnisse zeigen, dass selbst fortschrittliche Sprachmodelle auf der UGMathBench-Datensammlung große Herausforderungen erfahren. Dieses Ergebnis offenbart nicht nur die Grenzen der aktuellen Sprachmodelle, sondern bietet auch wichtige Hinweise für die Entwicklung zukünftiger Modelle mit höherem Deduktionsvermögen.
Die Veröffentlichung der UGMathBench-Datensammlung bietet neue Werkzeuge und Methoden zur Bewertung des mathematischen Schlussfolgerungsvermögens von Sprachmodellen und unterstützt Forscher dabei, die interne Deduktionslogik dieser Modelle besser zu verstehen. Derzeit ist die Datensammlung öffentlich verfügbar und Forscher sowie Entwickler können die Datensammlung und technische Berichte über angegebene Links herunterladen und weiter erforschen.
Download-Link der Datensammlung:
https://www.modelscope.cn/datasets/xinxu02/UGMathBench
https://huggingface.co/datasets/UGMathBench/ugmathbench
Technischer Bericht:
https://arxiv.org/abs/2501.13766