Récemment, la communauté ModelScope de Magasasin a annoncé le lancement d'un jeu de tests dynamiques appelé UGMathBench, conçu pour évaluer en profondeur les capacités de raisonnement mathématique des modèles de langue dans une large gamme de matières mathématiques à l'enseignement universitaire. L'apparition de ce jeu de données comble un vide important dans l'évaluation actuelle des capacités de raisonnement des modèles de langues dans le domaine des mathématiques universitaires et offre aux chercheurs une plateforme de test plus riche et plus exigeante.
Avec le développement rapide des technologies d'intelligence artificielle, les modèles de langue naturelle montrent un immense potentiel dans divers domaines tels que la traduction automatique, les services clients intelligents, la santé ou encore les finances. Cependant, comment évaluer précisément les performances de ces modèles, surtout leur capacité à raisonner et résoudre des problèmes mathématiques, reste un sujet central de préoccupation pour les chercheurs. Ces dernières années, plusieurs jeux de données de référence ont été créés pour évaluer la capacité de raisonnement mathématique des modèles de langues. Mais avec l'évolution rapide des modèles, ces jeux de données sont progressivement devenus trop faciles à résoudre.
Face à ce contexte, le jeu de données UGMathBench est né. Ce jeu de données collecte, extrait et organise une grande quantité de questions mathématiques universitaires à partir d'un système d'évaluation en ligne. Il couvre 16 sujets, allant de l'arithmétique de base aux équations différentielles et à la probabilité, totalisant 5062 questions. Contrairement aux jeux de données précédents, UGMathBench propose trois versions aléatoires différentes pour chaque question, générées en changeant les nombres dans les problèmes mathématiques, afin d'évaluer plus réalistement la capacité de raisonnement des modèles de langues.
Pour garantir l'exactitude et l'équité des évaluations, l'équipe de recherche a également introduit trois indicateurs clés : le taux de réussite efficace (EAcc), la marge de raisonnement (Δ) et l'efficacité robuste (RE). Le taux de réussite efficace mesure la proportion de questions que le modèle de langue peut résoudre correctement sur toutes les versions aléatoires ; la marge de raisonnement reflète la cohérence du modèle lorsqu'il répond à des versions aléatoires différentes ; l'efficacité robuste capture davantage la capacité du modèle à s'adapter aux différentes versions aléatoires du même problème.
Sur la base du jeu de données UGMathBench, l'équipe de recherche a mené une évaluation complète de 23 modèles de langue avancés, y compris des modèles commerciaux fermés et des modèles open source. Les résultats montrent que même les modèles de langue ayant des capacités de raisonnement avancées rencontrent de grandes difficultés sur le jeu de données UGMathBench. Ces résultats non seulement soulignent les limites actuelles des modèles de langues, mais fournissent également une importante référence pour le développement futur de modèles de langue avec une capacité de raisonnement accrue.
La publication du jeu de données UGMathBench ne fournit pas seulement de nouveaux outils et méthodes pour évaluer la capacité de raisonnement mathématique des modèles de langue, mais apporte également un soutien essentiel pour aider les chercheurs à mieux comprendre les logiques internes de raisonnement des modèles de langue. Actuellement, ce jeu de données est disponible au téléchargement public. Les chercheurs et développeurs peuvent obtenir le jeu de données et le rapport technique correspondant via les liens spécifiés pour explorer davantage le potentiel des modèles de langue dans le domaine du raisonnement mathématique.
Adresse de téléchargement du jeu de données :
https://www.modelscope.cn/datasets/xinxu02/UGMathBench
https://huggingface.co/datasets/UGMathBench/ugmathbench
Adresse du rapport technique :
https://arxiv.org/abs/2501.13766