MAmmoTH-VL est une plateforme d'inférence multimodale à grande échelle qui, grâce à la technique d'optimisation par instructions, améliore considérablement les performances des grands modèles linguistiques multimodaux (MLLM) dans les tâches multimodales. La plateforme utilise des modèles ouverts pour créer un ensemble de données contenant 12 millions de paires instruction-réponse, couvrant des tâches variées et exigeant un raisonnement poussé, et fournissant des justifications détaillées et fidèles. MAmmoTH-VL a obtenu des performances de pointe sur des benchmarks tels que MathVerse, MMMU-Pro et MuirBench, démontrant son importance dans les domaines de l'éducation et de la recherche.