- हाल ही में, एक्सियोम टेक के द्वारा विकसित MiMo-VL मल्टीमोडल ने MiMo-7B की जगह ले ली है और कई क्षेत्रों में शक्तिशाली क्षमता प्रदर्शित की है। इस मॉडल ने प्रतिमा, वीडियो, भाषा से संबंधित सामान्य प्रश्न और समझने और तर्क करने जैसे कई कार्यों पर अपने आकार के बराबर जनरिक मल्टीमोडल Qwen2.5-VL-7B की तुलना में बहुत अधिक प्रगति की है। GUI गाउंडिंग कार्य में इसकी प्रदर्शन विशेषज्ञ मॉडलों के साथ समान है, जिससे एजेंट युग की आगमन के लिए तैयारी हुई है।
- MiMo-VL-7B ने मल्टीमोडल तर्क समस्याओं पर शानदार प्रदर्शन किया है, हालाँकि इसका पैरामीटर आकार 7B है, फिर भी ओलंपिक बेंचमार्क (OlympiadBench) और कई गणित प्रतियोगिताओं (MathVision, MathVerse) में अपने पैरामीटर आकार 10 गुना बड़े Alibaba Qwen-2.5-VL-72B और QVQ-72B-Preview से बहुत अधिक आगे चला गया। इसके साथ ही, बंद स्रोत के मॉडल GPT-4o को भी पारित कर दिया। अंदरूनी महामॉडल कंकरेंस में वास्तविक उपयोगकर्ता अनुभव की जांच करते समय, MiMo-VL-7B ने GPT-4o से आगे निकलकर खुले स्रोत मॉडलों के अग्रणी बन गया। वास्तविक अनुप्रयोगों में, इस मॉडल ने जटिल प्रतिमा तर्क और प्रश्न-उत्तर पर मेहनती प्रदर्शन किया है, और GUI परिचालन पर 10 या उससे अधिक चरणों में भी अच्छी क्षमता प्रदर्शित की है, जो उपयोगकर्ताओं को उनके वास्तविक चाहिए संपत्ति को देखने में मदद कर सकता है।
- MiMo-VL-7B की विस्तृत दृश्य जागरूकता क्षमता ऊंची गुणवत्ता वाले प्रीट्रेनेड डेटा और नवाचारी मिश्रित ऑनलाइन सुधार सीखने एल्गोरिदम (MORL) के कारण है। मल्टीफेज प्रीट्रेनिंग प्रक्रिया के दौरान, एक्सियोम ने प्रतिमा-पाठ के जोड़े, वीडियो-पाठ के जोड़े, GUI ऑपरेशन श्रृंखला आदि के विभिन्न प्रकार के प्रीट्रेनेड मल्टीमोडल डेटा को एकत्र किया, साफ़ किया, और संयोजित किया, जिसका कुल 2.4T टोकेन है। फिर उसने विभिन्न प्रकार के डेटा के अनुपात को चरण-द्वारा समायोजित किया, जिससे लंबी दृश्य तर्कन क्षमता मजबूत की गई। मिश्रित ऑनलाइन सुधार सीखने एल्गोरिदम ने पाठ तर्कन, मल्टीमोडल जागरूकता + तर्कन, RLHF आदि के फीडबैक सिग्नल को समायोजित किया है, और ऑनलाइन सुधार सीखने एल्गोरिदम के माध्यम से प्रशिक्षण को स्थिर और तेज किया है, जिससे मॉडल की तर्कन क्षमता, जागरूकता क्षमता और उपयोगकर्ता अनुभव समेत सभी क्षेत्रों में सुधार किया गया।
- संबंधित लिंक: https://huggingface.co/XiaomiMiMo.
पेयर एक पोलोशियन के बारे में

AIbase基地
यह लेख AIbase दैनिक से है
【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।