MAVIS बहु-मोडल बड़े भाषा मॉडल (MLLMs) के लिए एक गणितीय दृश्य निर्देश ट्यूनिंग मॉडल है, जो मुख्य रूप से दृश्य गणितीय समस्या-समाधान में MLLMs की क्षमताओं को बढ़ाने के लिए दृश्य एन्कोडिंग गणितीय चार्ट, चार्ट-भाषा संरेखण और गणितीय तर्क कौशल में सुधार करके काम करता है। इस मॉडल में दो नए क्यूरेट किए गए डेटासेट, एक गणितीय दृश्य एन्कोडर और एक गणितीय MLLM शामिल हैं, जो MathVerse बेंचमार्क में अग्रणी प्रदर्शन प्राप्त करने के लिए तीन-चरणीय प्रशिक्षण प्रतिमान के माध्यम से प्रशिक्षित किया गया है।