Meta AI के शोधकर्ताओं ने शैक्षणिक भागीदारों के साथ मिलकर एक नवोन्मेषी प्रणाली विकसित की है - MILS (मल्टी-मोडल इटरेटिव LLM सॉल्वर), जो बिना विशेष प्रशिक्षण के बड़े भाषा मॉडल को चित्र, वीडियो और ऑडियो को संभालने के लिए सिखा सकती है। MILS भाषा मॉडल की स्वाभाविक समस्या समाधान क्षमता पर निर्भर करती है, न कि बड़े डेटा प्रशिक्षण पर, जो इसकी अनोखी विशेषता को प्रदर्शित करता है।

QQ20250210-105931.png

MILS का कार्य करने का तरीका दो AI मॉडलों को जोड़कर कार्य समाधान करना है: एक "जनरेटर" है, जो कार्य समाधान प्रस्तावित करता है, और दूसरा "स्कोरर" है, जो उत्पन्न समाधान के प्रभाव का मूल्यांकन करता है। स्कोरर द्वारा प्रदान की गई प्रतिक्रिया जनरेटर को उत्तर को लगातार बेहतर बनाने में मदद कर सकती है, जब तक कि संतोषजनक परिणाम नहीं मिल जाता। उदाहरण के लिए, चित्र विवरण कार्य में, MILS धीरे-धीरे चित्र विवरण को परिष्कृत कर सकती है, ताकि विभिन्न स्तरों के चित्र विवरण को सटीक रूप से वर्णित किया जा सके।

MILS चित्र विवरण के मामले में विशेष रूप से उत्कृष्ट है। Llama-3.1-8B मॉडल को जनरेटर के रूप में और CLIP मॉडल को स्कोरर के रूप में उपयोग करके, MILS वर्तमान में प्रमुख तरीकों के बराबर या उससे अधिक विस्तृत चित्र विवरण उत्पन्न कर सकती है, भले ही CLIP को चित्र विवरण कार्य के लिए विशेष रूप से प्रशिक्षित नहीं किया गया हो। इसके अलावा, MILS ने पाठ संकेतों को माइक्रो-ट्यून करके पाठ से चित्र उत्पन्न करने की क्षमता को बढ़ाया है, और AI द्वारा उत्पन्न संकेतों को चित्र संपादन कार्यों जैसे शैली रूपांतरण को संभालने के लिए चित्र प्रसंस्करण उपकरणों के साथ संयोजित कर सकती है।

QQ20250210-105939.png

जनरेटर और स्कोरर के बीच के चरणों की संख्या के साथ चित्र विवरण की सटीकता बढ़ती है।| चित्र: अशुतोष एवं अन्य

MILS की कार्यक्षमता केवल चित्रों तक सीमित नहीं है, बल्कि यह वीडियो और ऑडियो क्षेत्रों में भी विस्तारित होती है। MSR-VTT वीडियो डेटासेट का उपयोग करते समय, MILS वीडियो सामग्री विवरण में मौजूदा मॉडलों की तुलना में बेहतर प्रदर्शन करती है। चूंकि MILS संचालन के दौरान मॉडल पैरामीटर को संशोधित नहीं करती है, यह विभिन्न प्रकार के डेटा को पठनीय पाठ में परिवर्तित कर सकती है, चित्र, ऑडियो आदि के कई स्रोतों से जानकारी को एकीकृत और आवश्यक प्रारूप में परिवर्तित करने का समर्थन करती है, जिससे मल्टी-मोडल जानकारी एकीकरण अनुप्रयोगों के लिए नए संभावनाओं का मार्ग प्रशस्त होता है।

परीक्षणों से पता चलता है कि बड़े जनरेटर और स्कोरिंग मॉडल का उपयोग करके अधिक सटीक परिणाम उत्पन्न किए जा सकते हैं, संभावित समाधान की संख्या बढ़ाने से प्रदर्शन में महत्वपूर्ण सुधार हो सकता है। शोधकर्ताओं ने यह भी पाया कि बड़े भाषा मॉडल में विस्तार करने से न केवल परिणाम की गुणवत्ता में सुधार होता है, बल्कि प्रदर्शन में भी स्पष्ट सुधार होता है।

QQ20250210-105948.png

दृश्य सरल बुनियादी विवरण से अधिक सटीक विवरण और अधिक प्राकृतिक तत्वों के साथ जटिल परिदृश्य विवरण में विकसित होता है।| चित्र: अशुतोष एवं अन्य

MILS द्वारा अपनाई गई यह नवोन्मेषी रणनीति वर्तमान में कृत्रिम बुद्धिमत्ता के क्षेत्र में अधिक बुद्धिमान तर्क क्षमता के विकास की प्रवृत्ति के अनुरूप है। Meta टीम ने यह भी बताया कि MILS भविष्य में 3D डेटा प्रसंस्करण जैसे क्षेत्रों में बड़ी संभावनाएं प्रदर्शित कर सकती है, जिससे मल्टी-मोडल AI के विकास को आगे बढ़ाने में मदद मिलेगी।

OpenAI के GPT-4 और अन्य ओपन-सोर्स विकल्पों जैसे Meta का Llama3.2, Mistral का Pixtral और DeepSeek का Janus Pro के तेजी से विकास के साथ, ये उभरते मल्टी-मोडल AI सिस्टम अपने दैनिक जीवन में अनुप्रयोगों को तेज कर रहे हैं और कृत्रिम बुद्धिमत्ता के भविष्य के विकास के लिए एक महत्वपूर्ण आधार प्रदान कर रहे हैं।