Los modelos de lenguaje multimodales han logrado avances significativos en áreas como la pregunta y respuesta de imágenes y la comprensión visual, pero aún tienen deficiencias notables en el razonamiento matemático, un desafío fundamental. Un equipo de investigación conjunto de la Universidad de Telecomunicaciones de Pekín, WeChat de Tencent y la Universidad de Tsinghua ha presentado oficialmente We-Math2.0, un conjunto de datos y un sistema de conocimiento revolucionarios para el razonamiento matemático multimodal.

El punto destacado de este nuevo sistema es la construcción de un marco sistemático de conocimiento matemático sin precedentes, que abarca toda la gama de conocimientos matemáticos desde las matemáticas básicas de primaria hasta las matemáticas avanzadas de la universidad, incluyendo 491 puntos de conocimiento específicos y 1819 principios fundamentales de conocimiento. Este diseño integral del sistema de conocimiento proporciona una base teórica sólida para los modelos de IA.

image.png

Arquitectura de conocimiento innovadora: Definición-Teorema-Aplicación en tres dimensiones

We-Math2.0 utiliza una arquitectura lógica de definición-teorema-aplicación, asegurando que los conceptos matemáticos formen una red de asociaciones clara. Este diseño no solo se alinea con las leyes cognitivas del aprendizaje matemático humano, sino que también brinda a los modelos de IA una ruta de razonamiento estructurada. De esta manera, los modelos pueden comprender mejor las conexiones internas de los conceptos matemáticos, en lugar de simplemente coincidir con patrones.

En respuesta a la calidad variable de los conjuntos de datos abiertos existentes, el equipo de investigación diseñó manualmente preguntas y dibujos para construir cuidadosamente el conjunto de datos MathBook-Standard. Este conjunto de datos adopta de forma innovadora una estrategia de una pregunta con múltiples imágenes y una imagen con múltiples preguntas, ofreciendo una cobertura multidimensional para cada principio de conocimiento, lo que mejora significativamente la diversidad y utilidad de los datos.

Modelado de dificultad tridimensional: Permitir que la IA aprenda gradualmente

Otra innovación importante de We-Math2.0 es el módulo MathBook-Pro, que realiza un modelado detallado de la dificultad en tres dimensiones para las preguntas matemáticas multimodales. A través de un aumento sistemático de la complejidad de los pasos de razonamiento, la complejidad visual y la complejidad contextual, el equipo logró expandir cada pregunta básica en 8 muestras de diferentes niveles de dificultad.

Este diseño progresivo de dificultad permite que los modelos de IA puedan mejorar sus habilidades de resolución de problemas gradualmente, comenzando con preguntas simples, para finalmente enfrentar desafíos matemáticos multimodales complejos. Este enfoque tiene un significado importante para mejorar la capacidad de generalización del modelo.

Estrategia de entrenamiento híbrido: Aprendizaje supervisado y aprendizaje por refuerzo impulsan juntos

En cuanto al método de entrenamiento, We-Math2.0 utiliza una estrategia de entrenamiento innovadora. El sistema primero realiza un ajuste fino supervisado con 1000 datos de alta calidad para establecer una capacidad básica de razonamiento matemático, y luego introduce algoritmos de aprendizaje por refuerzo para una optimización profunda.

Destaca especialmente la implementación de un mecanismo de programación dinámica de aprendizaje, donde el modelo puede ajustar inteligentemente los pesos y la distribución de los datos de entrenamiento según los tipos de error. Este modo de aprendizaje adaptativo mejora significativamente la eficiencia y efectividad del entrenamiento.

Verificación experimental: Mejoras notables en varios indicadores

Los resultados preliminares de las pruebas muestran que los modelos optimizados con We-Math2.0 han logrado mejoras notables en varios conjuntos de prueba principales de razonamiento matemático. Este resultado no solo valida la efectividad del nuevo sistema, sino que también proporciona un apoyo técnico importante para el desarrollo de la inteligencia artificial matemática multimodal.

AIbase analiza que la publicación de We-Math2.0 tiene un valor académico y práctico importante. Desde el punto de vista académico, este sistema proporciona un conjunto de datos estándar y un marco de evaluación para la investigación sobre razonamiento matemático multimodal; desde el punto de vista práctico, este avance tiene el potencial de impulsar la aplicación profunda de la IA en campos como la educación matemática, el cálculo científico y las aplicaciones ingenieriles.

A través de la creación de un marco de conocimiento sistematizado, métodos innovadores de modelado de dificultad y estrategias de entrenamiento híbrido, We-Math2.0 no solo resuelve los desafíos fundamentales que enfrenta la inteligencia artificial matemática multimodal actual, sino que también establece una base sólida para la inteligentización de la educación matemática y la automatización de la investigación científica en el futuro. El éxito de este proyecto marca un paso importante en la capacidad de la IA para tareas de razonamiento complejo.

A medida que We-Math2.0 se libera como código abierto, se espera que más equipos de investigación realicen investigaciones relacionadas basándose en esta plataforma, impulsando así el rápido desarrollo de la tecnología de inteligencia artificial matemática multimodal.

Dirección del artículo: https://arxiv.org/pdf/2508.10433