1. हाल ही में, एक्सियोम टेक के द्वारा विकसित MiMo-VL मल्टीमोडल ने MiMo-7B की जगह ले ली है और कई क्षेत्रों में शक्तिशाली क्षमता प्रदर्शित की है। इस मॉडल ने प्रतिमा, वीडियो, भाषा से संबंधित सामान्य प्रश्न और समझने और तर्क करने जैसे कई कार्यों पर अपने आकार के बराबर जनरिक मल्टीमोडल Qwen2.5-VL-7B की तुलना में बहुत अधिक प्रगति की है। GUI गाउंडिंग कार्य में इसकी प्रदर्शन विशेषज्ञ मॉडलों के साथ समान है, जिससे एजेंट युग की आगमन के लिए तैयारी हुई है।
  2. वेस्टर्न लिपी का स्क्रीनशॉट_20250530093852.png
  3. MiMo-VL-7B ने मल्टीमोडल तर्क समस्याओं पर शानदार प्रदर्शन किया है, हालाँकि इसका पैरामीटर आकार 7B है, फिर भी ओलंपिक बेंचमार्क (OlympiadBench) और कई गणित प्रतियोगिताओं (MathVision, MathVerse) में अपने पैरामीटर आकार 10 गुना बड़े Alibaba Qwen-2.5-VL-72B और QVQ-72B-Preview से बहुत अधिक आगे चला गया। इसके साथ ही, बंद स्रोत के मॉडल GPT-4o को भी पारित कर दिया। अंदरूनी महामॉडल कंकरेंस में वास्तविक उपयोगकर्ता अनुभव की जांच करते समय, MiMo-VL-7B ने GPT-4o से आगे निकलकर खुले स्रोत मॉडलों के अग्रणी बन गया। वास्तविक अनुप्रयोगों में, इस मॉडल ने जटिल प्रतिमा तर्क और प्रश्न-उत्तर पर मेहनती प्रदर्शन किया है, और GUI परिचालन पर 10 या उससे अधिक चरणों में भी अच्छी क्षमता प्रदर्शित की है, जो उपयोगकर्ताओं को उनके वास्तविक चाहिए संपत्ति को देखने में मदद कर सकता है।
  4. MiMo-VL-7B की विस्तृत दृश्य जागरूकता क्षमता ऊंची गुणवत्ता वाले प्रीट्रेनेड डेटा और नवाचारी मिश्रित ऑनलाइन सुधार सीखने एल्गोरिदम (MORL) के कारण है। मल्टीफेज प्रीट्रेनिंग प्रक्रिया के दौरान, एक्सियोम ने प्रतिमा-पाठ के जोड़े, वीडियो-पाठ के जोड़े, GUI ऑपरेशन श्रृंखला आदि के विभिन्न प्रकार के प्रीट्रेनेड मल्टीमोडल डेटा को एकत्र किया, साफ़ किया, और संयोजित किया, जिसका कुल 2.4T टोकेन है। फिर उसने विभिन्न प्रकार के डेटा के अनुपात को चरण-द्वारा समायोजित किया, जिससे लंबी दृश्य तर्कन क्षमता मजबूत की गई। मिश्रित ऑनलाइन सुधार सीखने एल्गोरिदम ने पाठ तर्कन, मल्टीमोडल जागरूकता + तर्कन, RLHF आदि के फीडबैक सिग्नल को समायोजित किया है, और ऑनलाइन सुधार सीखने एल्गोरिदम के माध्यम से प्रशिक्षण को स्थिर और तेज किया है, जिससे मॉडल की तर्कन क्षमता, जागरूकता क्षमता और उपयोगकर्ता अनुभव समेत सभी क्षेत्रों में सुधार किया गया।
  5. संबंधित लिंक: https://huggingface.co/XiaomiMiMo.