Recentemente, a comunidade ModelScope lançou um conjunto de dados de benchmark dinâmico chamado UGMathBench, com o objetivo de avaliar abrangentemente a capacidade de raciocínio matemático dos modelos de linguagem em uma ampla gama de disciplinas de matemática universitária. O surgimento desse conjunto de dados preenche uma lacuna no campo da avaliação da capacidade de raciocínio matemático de modelos de linguagem nesse nível, oferecendo aos pesquisadores uma plataforma mais rica e desafiadora para testes.

Com o rápido desenvolvimento da tecnologia de inteligência artificial, os modelos de linguagem natural demonstraram um grande potencial em diversas áreas como tradução automática, atendimento ao cliente inteligente, saúde e finanças. No entanto, como avaliar precisamente o desempenho desses modelos, especialmente suas capacidades de raciocínio e resolução de problemas matemáticos, tem sido uma questão central para os pesquisadores. Nos últimos anos, diversos conjuntos de dados de benchmark foram criados para avaliar a capacidade de raciocínio matemático desses modelos, mas à medida que os modelos evoluíram rapidamente, essas plataformas tornaram-se gradualmente fáceis de superar.

captura-de-tela_20250510101532.png

Neste contexto, o conjunto de dados UGMathBench foi desenvolvido. O conjunto de dados foi coletado, extraído e organizado cuidadosamente a partir de um sistema automatizado de correção de exercícios online, abrangendo 16 áreas de matemática universitária, incluindo aritmética básica, cálculo univariado, cálculo multivariável, equações diferenciais e probabilidade, totalizando 5.062 questões. Diferente de outros conjuntos de dados, o UGMathBench fornece três versões aleatórias diferentes para cada questão, gerando variações dinâmicas nos problemas ao alterar os números, permitindo uma avaliação mais realista das capacidades de raciocínio dos modelos de linguagem.

Para garantir a precisão e imparcialidade das avaliações, a equipe de pesquisa introduziu três indicadores-chave: taxa de acerto eficaz (EAcc), diferença de raciocínio (Δ) e eficiência de robustez (RE). A taxa de acerto eficaz mede a proporção de questões que o modelo pode responder corretamente em todas as versões aleatórias; a diferença de raciocínio reflete a consistência do modelo ao resolver diferentes versões aleatórias das questões; e a eficiência de robustez captura ainda mais a capacidade do modelo de se adaptar às variações nas mesmas questões.

Com base no conjunto de dados UGMathBench, a equipe de pesquisa realizou uma avaliação completa de 23 modelos de linguagem avançados, incluindo modelos comerciais fechossurce e modelos open source. Os resultados mostram que até mesmo modelos de linguagem com capacidades avançadas de raciocínio enfrentam grandes desafios nesse conjunto de dados. Esses resultados não apenas revelam as limitações atuais dos modelos de linguagem, mas também fornecem importantes referências para o desenvolvimento futuro de modelos com maior capacidade de raciocínio.

O lançamento do conjunto de dados UGMathBench não apenas oferece novas ferramentas e métodos para avaliar a capacidade de raciocínio matemático dos modelos de linguagem, mas também fornece suporte valioso para os pesquisadores entenderem melhor a lógica interna de raciocínio desses modelos. Atualmente, o conjunto de dados está disponível para download público, e pesquisadores e desenvolvedores podem acessar o conjunto de dados e o relatório técnico correspondente por meio dos links especificados, explorando ainda mais o potencial dos modelos de linguagem na área de raciocínio matemático.

Endereço para download do conjunto de dados:

https://www.modelscope.cn/datasets/xinxu02/UGMathBench

https://huggingface.co/datasets/UGMathBench/ugmathbench

Endereço do relatório técnico:

https://arxiv.org/abs/2501.13766