MAVIS es un modelo de ajuste de instrucciones de visión matemática para modelos de lenguaje grandes multimodales (MLLM). Principalmente, mejora la capacidad de los MLLM para resolver problemas matemáticos visuales mediante la mejora de la codificación visual de gráficos matemáticos, la alineación gráfico-lenguaje y las habilidades de razonamiento matemático. El modelo incluye dos nuevos conjuntos de datos cuidadosamente diseñados, un codificador de visión matemática y un MLLM matemático, logrando un rendimiento líder en el benchmark MathVerse a través de un paradigma de entrenamiento de tres etapas.