मियू मॉडल टीम ने अपने नए पीढ़ी के बहु-माध्यम मॉडल Xiaomi MiMo-VL-7B-2508 को खुला स्रोत घोषित कर दिया है, जिसमें RL और SFT दोनों संस्करण शामिल हैं।
आधिकारिक डेटा के अनुसार, नए मॉडल विषय तर्क, दस्तावेज समझ, ग्राफिकल इंटरफेस स्थान निर्धारण और वीडियो समझ के चार मुख्य क्षमताओं में पूर्ण रूप से रिकॉर्ड तोड़ दिया है, जिसमें MMMU बेंचमार्क पहली बार 70 के बारे में पहुंच गया, ChartQA 94.4 तक पहुंच गया, ScreenSpot-v2 92.5 तक पहुंच गया, VideoMME 70.8 तक बढ़ गया।
इस अपडेट के माध्यम से सुधार के लिए प्रबलित अधिकरण की स्थिरता और संवेदनशील सुधार प्रक्रिया के सुधार के कारण, मॉडल के आंतरिक VLM Arena रेटिंग 1093.9 से 1131.2 तक बढ़ गई।
विशेष रूप से ध्यान आकर्षित करने वाली बात यह है कि उपयोगकर्ता " /no_think " निर्देश के माध्यम से प्रश्न करते समय "सोचना" और "गैर-सोचना" मोड के बीच मुक्त रूप से स्विच कर सकते हैं: पहला पूरे तर्क श्रृंखला को दिखाता है, नियंत्रण सफलता 100% है, दूसरा उत्तर तुरंत उत्पन्न करता है, अधिक तेज अभिव्यक्ति, सफलता 99.84% है।
MiMo-VL-7B-RL-2508
अधिकांश मामलों में उपयोगकर्ताओं के लिए इस मॉडल का उपयोग करने की सिफारिश की जाती है।
ओपन सोर्स पता: https://huggingface.co/XiaomiMiMo/MiMo-VL-7B-RL-2508
MiMo-VL-7B-SFT-2508
उपयोगकर्ता अपनी आवश्यकता के अनुसार, इस मॉडल पर SFT और RL कर सकते हैं। पिछले SFT मॉडल की तुलना में, इस मॉडल में अधिक स्थिरता है।
ओपन सोर्स पता: https://huggingface.co/XiaomiMiMo/MiMo-VL-7B-SFT-2508