बहुमाध्यम बड़े मॉडल (MLLM) कठिन समस्याओं के हल में बढ़ते हुए संभावना दिखा रहे हैं। हालांकि, इन मॉडल जटिल तर्क प्रक्रिया के साथ अक्सर "सीधे" लगते हैं, जो आत्म-परीक्षण की कमी के कारण बार-बार प्रयास की आवश्यकता वाली चुनौतियों के सामने वापस नहीं आ सकते हैं। इस समस्या को हल करने के लिए, शांगहाई जियाओतोंग विश्वविद्यालय और शांगहाई आर्टिफिशियल इंटेलिजेंस प्रयोगशाला के अनुसंधान टीम ने MM-HELIX नामक एक नवाचार परियोजना शुरू की है, जिसका उद्देश्य AI को मानव के रूप में लंबे श्रृंखला के आत्म-परीक्षण तर्क पर शिक्षित करना है।
MM-HELIX केवल एक परियोजना नहीं है, बल्कि एक व्यापक पारिस्थितिकी तंत्र है। टीम ने पहले "अंतिम परीक्षा" के रूप में जाने जाने वाले MM-HELIX बेंचमार्क टेस्ट का निर्माण किया, जिसका उद्देश्य बहुमाध्यम बड़े मॉडल के आत्म-परीक्षण तर्क क्षमता का मूल्यांकन करना है। यह बेंचमार्क 42 उच्च जटिलता वाले कार्यों के साथ जुड़ा हुआ है, जो एल्गोरिदम, ग्राफ सिद्धांत, पहेलियां और रणनीति खेलों के क्षेत्र में शामिल हैं। परीक्षण परिणामों के अनुसार, भले ही वर्तमान में सबसे शीर्ष मॉडल हों, उनकी सटीकता नीचे रही, विशेष रूप से बहुमाध्यम इनपुट के मामले में, निराशाजनक प्रदर्शन दर्ज किया गया। ऐसा परिणाम निश्चित रूप से AI के आत्म-परीक्षण क्षमता में सुधार के महत्व को दर्शाता है।

बहुमाध्यम बड़े मॉडल के लिए आत्म-परीक्षण सीखने में सहायता करने के लिए, अनुसंधान टीम ने MM-HELIX-100K नामक एक डेटा सेट भी बनाया, जिसमें 100,000 उच्च गुणवत्ता वाले नमूने शामिल हैं, जिसका उद्देश्य "चरण संकेत प्रतिक्रिया जनन" (SERG) प्रक्रिया के माध्यम से मॉडल को आत्म-परीक्षण और पुनर्विचार करना सिखाना है। इस प्रक्रिया ने समाधान समय को बहुत कम कर दिया है और अवांछित बर्बादी विचार को दूर कर दिया है।

इसके अलावा, टीम ने "स्वयं-अनुकूलन मिश्रित रणनीति अनुकूलन एल्गोरिदम" (AHPO) का अवमंडन किया, जो बुद्धिमान शिक्षक के रूप में काम करता है, जो मॉडल को सीखने के दौरान विशेषज्ञ दिशा-निर्देश पर निर्भरता से स्वयं की खोज में संक्रमण करने में सहायता करता है। यह गतिशील शिक्षा योजना मॉडल की सटीकता बढ़ाते हुए भी स्वतंत्र विचार क्षमता विकसित करने में सक्षम है।
इस पूरे नवाचार के बाद, Qwen2.5-VL-7B मॉडल, जिसमें MM-HELIX लगाया गया है, बेंचमार्क परीक्षण में सटीकता 18.6% बढ़ गई। यह प्रगति मूल मॉडल के बाधाओं को तोड़ देती है और आत्म-परीक्षण क्षमता के शक्तिशाली व्यापकता को साबित करती है, जो परियोजना के AI विकास पर महत्वपूर्ण प्रभाव को साबित करती है।