Embora os modelos de linguagem multimodais tenham obtido avanços significativos em áreas como perguntas e respostas visuais e compreensão visual, ainda apresentam deficiências evidentes na raciocínio matemático, um desafio central. Um grupo de pesquisa conjunto da Universidade de Ciência e Tecnologia de Pekin, WeChat da Tencent e da Universidade de Tsinghua abordou essa questão e lançou oficialmente o We-Math2.0 — um conjunto de dados e sistema de conhecimento inovadores para raciocínio matemático multimodal.
O destaque central deste novo sistema é a construção de um quadro sistemático de conhecimento matemático sem precedentes, que abrange toda a gama do ensino fundamental ao ensino superior, incluindo 491 tópicos específicos e 1819 princípios fundamentais de conhecimento. Essa estrutura abrangente fornece uma base teórica sólida para os modelos de IA.
Arquitetura de conhecimento inovadora: Definição-Teorema-Applicação em três partes
O We-Math2.0 adota uma arquitetura lógica de definição-teorema-aplicação, garantindo que os conceitos matemáticos formem uma rede de associações claras. Este design não apenas segue as regras cognitivas da aprendizagem matemática humana, mas também oferece aos modelos de IA um caminho estruturado para o raciocínio. Com isso, os modelos conseguem entender melhor as relações internas dos conceitos matemáticos, em vez de simplesmente corresponder padrões.
Diante da qualidade variada dos conjuntos de dados abertos existentes, a equipe de pesquisa construiu cuidadosamente o conjunto de dados MathBook-Standard, projetando manualmente questões e ilustrações. Esse conjunto inovador utiliza estratégias de uma questão com múltiplas imagens e uma imagem com múltiplas questões, fornecendo uma cobertura multidimensional para cada princípio de conhecimento, aumentando significativamente a diversidade e utilidade dos dados.
Modelagem de dificuldade tridimensional: Ensine à IA a progredir gradualmente
Outra inovação importante do We-Math2.0 é o módulo MathBook-Pro, que realiza uma modelagem detalhada da dificuldade tridimensional das questões matemáticas multimodais. Através da sistematização da complexidade dos passos de raciocínio, complexidade visual e complexidade contextual, a equipe conseguiu expandir cada questão básica em amostras de oito níveis diferentes de dificuldade.
Essa abordagem de dificuldade progressiva permite que os modelos de IA aprendam a resolver problemas desde os mais simples até os mais complexos, de forma semelhante a estudantes humanos. Essa metodologia é de grande importância para melhorar a capacidade de generalização dos modelos.
Estratégia de treinamento híbrido: Aprendizado supervisionado e aprendizado por reforço impulsionam juntos
No método de treinamento, o We-Math2.0 adota uma estratégia inovadora de treinamento híbrido. O sistema primeiro realiza ajuste fino supervisionado com 1000 dados de alta qualidade, estabelecendo uma capacidade básica de raciocínio matemático, depois introduz algoritmos de aprendizado por reforço para otimização profunda.
Destaca-se especialmente a implementação de um mecanismo de agendamento dinâmico de aprendizado, no qual o modelo pode ajustar inteligentemente os pesos e a distribuição dos dados de treinamento de acordo com os tipos de erro. Essa abordagem de aprendizado adaptativo melhora significativamente a eficiência e o resultado do treinamento.
Validação experimental: Melhorias significativas em vários indicadores
Os resultados iniciais dos experimentos mostram que os modelos otimizados pelo We-Math2.0 alcançaram melhorias notáveis em diversos conjuntos de testes de raciocínio matemático. Esses resultados não apenas validam a eficácia do novo sistema, mas também fornecem suporte técnico importante para o desenvolvimento de IA matemática multimodal.
A análise da AIbase indica que o lançamento do We-Math2.0 possui valor acadêmico e prático importante. Do ponto de vista acadêmico, o sistema fornece um conjunto de dados e um quadro de avaliação padronizados para a pesquisa em raciocínio matemático multimodal; do ponto de vista prático, essa inovação tem potencial para promover profundamente a aplicação da IA em áreas como educação matemática, cálculo científico e aplicações engenharia.
Através da criação de um quadro de conhecimento sistemático, métodos inovadores de modelagem de dificuldade e estratégias de treinamento híbrido, o We-Math2.0 não apenas resolve os principais desafios enfrentados pelos modelos de IA matemática multimodal, mas também estabelece uma base sólida para a inteligentização da educação matemática e a automação da pesquisa científica no futuro. A implementação bem-sucedida deste projeto marca mais um passo importante na capacidade da IA em tarefas de raciocínio complexo.
Com o lançamento aberto do We-Math2.0, espera-se que mais equipes de pesquisa realizem pesquisas relacionadas com base nessa plataforma, acelerando assim o rápido desenvolvimento da tecnologia de IA matemática multimodal.
Endereço do artigo: https://arxiv.org/pdf/2508.10433