मियू मॉडल टीम ने अपने नए पीढ़ी के बहु-माध्यम मॉडल Xiaomi MiMo-VL-7B-2508 को खुला स्रोत घोषित कर दिया है, जिसमें RL और SFT दोनों संस्करण शामिल हैं।

आधिकारिक डेटा के अनुसार, नए मॉडल विषय तर्क, दस्तावेज समझ, ग्राफिकल इंटरफेस स्थान निर्धारण और वीडियो समझ के चार मुख्य क्षमताओं में पूर्ण रूप से रिकॉर्ड तोड़ दिया है, जिसमें MMMU बेंचमार्क पहली बार 70 के बारे में पहुंच गया, ChartQA 94.4 तक पहुंच गया, ScreenSpot-v2 92.5 तक पहुंच गया, VideoMME 70.8 तक बढ़ गया।

微信截图_20250809102003.png

इस अपडेट के माध्यम से सुधार के लिए प्रबलित अधिकरण की स्थिरता और संवेदनशील सुधार प्रक्रिया के सुधार के कारण, मॉडल के आंतरिक VLM Arena रेटिंग 1093.9 से 1131.2 तक बढ़ गई।

विशेष रूप से ध्यान आकर्षित करने वाली बात यह है कि उपयोगकर्ता " /no_think " निर्देश के माध्यम से प्रश्न करते समय "सोचना" और "गैर-सोचना" मोड के बीच मुक्त रूप से स्विच कर सकते हैं: पहला पूरे तर्क श्रृंखला को दिखाता है, नियंत्रण सफलता 100% है, दूसरा उत्तर तुरंत उत्पन्न करता है, अधिक तेज अभिव्यक्ति, सफलता 99.84% है।

  • MiMo-VL-7B-RL-2508

    • अधिकांश मामलों में उपयोगकर्ताओं के लिए इस मॉडल का उपयोग करने की सिफारिश की जाती है।

    • ओपन सोर्स पता: https://huggingface.co/XiaomiMiMo/MiMo-VL-7B-RL-2508

  • MiMo-VL-7B-SFT-2508

    • उपयोगकर्ता अपनी आवश्यकता के अनुसार, इस मॉडल पर SFT और RL कर सकते हैं। पिछले SFT मॉडल की तुलना में, इस मॉडल में अधिक स्थिरता है।

    • ओपन सोर्स पता: https://huggingface.co/XiaomiMiMo/MiMo-VL-7B-SFT-2508