Les modèles de langage multimodaux ont connu des progrès significatifs dans des domaines tels que les questions-réponses visuelles et la compréhension visuelle, mais ils présentent encore des lacunes évidentes dans le raisonnement mathématique, un défi central. Une équipe de recherche conjointe de l'Université de poste et télécommunications de Pékin, de WeChat de Tencent et du Tsinghua University a officiellement lancé We-Math2.0 - un ensemble de données et un système de connaissances sur le raisonnement mathématique multimodal révolutionnaires.
Ce nouveau système se distingue par la création d'un cadre structuré inédit pour les connaissances mathématiques, couvrant l'ensemble du spectre des mathématiques, allant des bases scolaires aux mathématiques supérieures. Ce cadre inclut 491 concepts spécifiques et 1819 principes fondamentaux. Cette conception exhaustive fournit une base théorique solide pour les modèles d'IA.
Architecture innovante des connaissances : Définition-Théorème-Application
We-Math2.0 adopte une architecture logique de définition-théorème-application, assurant un réseau clair d'associations entre les concepts mathématiques. Cette conception correspond non seulement aux règles cognitives de l'apprentissage mathématique humain, mais offre également aux modèles d'IA un chemin structuré pour le raisonnement. Ainsi, les modèles comprennent mieux les liens internes entre les concepts mathématiques, au lieu de simplement faire correspondre des motifs.
Afin de résoudre le problème de qualité variable des ensembles de données open source existants, l'équipe de recherche a conçu manuellement des exercices et des dessins pour créer l'ensemble de données MathBook-Standard. Cet ensemble de données intègre de manière innovante une stratégie d'une question avec plusieurs illustrations et d'une illustration avec plusieurs questions, offrant ainsi une couverture multiangulaire pour chaque principe de connaissance, augmentant ainsi considérablement la diversité et la praticité des données.
Modélisation de difficulté en trois dimensions : Faire apprendre à l'IA à progresser pas à pas
Une autre innovation importante de We-Math2.0 est le module MathBook-Pro, qui modélise en détail la difficulté des problèmes mathématiques multimodaux en trois dimensions : complexité des étapes de raisonnement, complexité visuelle et complexité contextuelle. Grâce à cela, l'équipe a réussi à étendre chaque problème de base en 8 échantillons de niveaux de difficulté différents.
Cette conception progressive de la difficulté permet aux modèles d'IA de développer leurs compétences de résolution de problèmes comme les élèves humains, en commençant par des problèmes simples et en progressant vers des défis plus complexes. Cette approche est très importante pour améliorer la capacité de généralisation des modèles.
Stratégie de formation mixte : Apprentissage supervisé et apprentissage renforcé
Pour la méthode d'entraînement, We-Math2.0 utilise une stratégie innovante de formation mixte. Le système commence par une micro-optimisation supervisée sur 1000 données de haute qualité, établissant ainsi une base de compétences de raisonnement mathématique, puis introduit ensuite des algorithmes d'apprentissage renforcé pour une optimisation approfondie.
Notamment, ce système a également mis en place une mécanique d'ordonnancement dynamique de l'apprentissage, permettant au modèle d'ajuster intelligemment les poids et la distribution des données d'entraînement selon le type d'erreur. Cette forme d'apprentissage adaptatif améliore significativement l'efficacité et les résultats de l'entraînement.
Vérification expérimentale : Amélioration significative sur plusieurs indicateurs
Les résultats initiaux des expériences montrent que les modèles optimisés par We-Math2.0 affichent une amélioration notable sur plusieurs ensembles de tests standardisés de raisonnement mathématique. Ces résultats valident non seulement l'efficacité du nouveau système, mais fournissent également un soutien technique important pour le développement des IA multimodales en mathématiques.
AIbase analyse que le lancement de We-Math2.0 présente une valeur académique et pratique importante. Du point de vue académique, ce système fournit un ensemble de données et un cadre d'évaluation standardisés pour la recherche sur le raisonnement mathématique multimodal ; du point de vue pratique, cette percée pourrait favoriser une application approfondie de l'IA dans les domaines de l'éducation mathématique, du calcul scientifique et des applications ingénieries.
Avec la création d'un cadre de connaissances structuré, des méthodes innovantes de modélisation de difficulté et des stratégies d'entraînement mixtes, We-Math2.0 ne résout pas seulement les défis centraux auxquels font face les IA multimodales en mathématiques, mais établit également une base solide pour l'intelligence artificielle dans l'éducation mathématique future et l'automatisation de la recherche scientifique. Le succès de ce projet marque une étape importante dans l'évolution de l'IA pour les tâches de raisonnement complexes.
Avec le lancement open source de We-Math2.0, on s'attend à ce que davantage d'équipes de recherche utilisent cette plateforme pour mener des recherches pertinentes, poussant ainsi plus loin le développement rapide de la technologie IA multimodale en mathématiques.
Adresse du papier : https://arxiv.org/pdf/2508.10433