बहुविधा कृत्रिम बुद्धिमत्ता (AI) के क्षेत्र में, ऐप्पल के इंजीनियरों ने फ्रांस के सोरबोन विश्वविद्यालय की शोध टीम के साथ मिलकर एक महत्वपूर्ण शोध किया है। हाल ही में, तकनीकी मीडिया मार्कटेकपोस्ट ने संबंधित ब्लॉग पोस्ट प्रकाशित की है, जिसमें बहुविधा AI में प्रारंभिक संलयन और बाद के संलयन मॉडल के अनुप्रयोग और संभावनाओं पर चर्चा की गई है। शोध से पता चलता है कि शुरुआत से प्रशिक्षित प्रारंभिक संलयन मॉडल गणना दक्षता और स्केलेबिलिटी में अधिक फायदेमंद हैं।
बहुविधा AI का लक्ष्य छवियों, टेक्स्ट आदि जैसे कई प्रकार के डेटा को एक साथ संसाधित करना है, हालांकि, इन विभिन्न स्रोतों के डेटा को एकीकृत करना हमेशा से एक चुनौती रहा है। वर्तमान तकनीक आमतौर पर बाद के संलयन (लेट-फ्यूजन) रणनीति का उपयोग करती है, अर्थात्, पूर्व-प्रशिक्षित एकल-विधा मॉडल (जैसे दृश्य और भाषा मॉडल) को एक साथ जोड़ना। हालांकि यह विधि संचालित करने में आसान है, लेकिन वास्तविक बहुविधा समझ को प्राप्त करने में, यह अक्सर एकल-विधा पूर्व-प्रशिक्षण द्वारा लाए गए अंतर्निहित पूर्वाग्रहों द्वारा सीमित होता है, जिससे मॉडल की क्रॉस-मोड संबंधों को पकड़ने की क्षमता प्रभावित होती है।

चित्र स्रोत टिप्पणी: यह चित्र AI द्वारा उत्पन्न किया गया है, और चित्र अधिकार सेवा प्रदाता मिडजर्नी है।
जैसे-जैसे सिस्टम का आकार बढ़ता है, विभिन्न घटकों के पैरामीटर, पूर्व-प्रशिक्षण आवश्यकताओं और स्केलेबिलिटी विशेषताओं में उल्लेखनीय अंतर होता है, जिससे कंप्यूटिंग संसाधनों का आवंटन जटिल हो जाता है, खासकर उन कार्यों में जहां गहरे बहुविधा अनुमान की आवश्यकता होती है, प्रदर्शन गंभीर रूप से प्रभावित होता है। इस पृष्ठभूमि के खिलाफ, ऐप्पल और सोरबोन विश्वविद्यालय की शोध टीम ने पारंपरिक वास्तुशिल्प विकल्पों को चुनौती दी है और देशी बहुविधा मॉडल (NMMs) की स्केलेबिलिटी विशेषताओं की गहनता से जांच की है।
शोध ने प्रारंभिक संलयन और बाद के संलयन मॉडल की तुलना की है। परिणाम दर्शाते हैं कि यद्यपि दोनों शुरुआत से प्रशिक्षण में समान प्रदर्शन करते हैं, प्रारंभिक संलयन मॉडल कम गणना बजट के तहत अधिक कुशल हैं और स्केल करना आसान है। इसके अलावा, टीम ने विशेषज्ञ मिश्रण (MoE) विरल आर्किटेक्चर की भी खोज की है, जो गतिशील रूप से पैरामीटर आवंटित कर सकता है और विभिन्न विधाओं के लिए विशिष्ट अनुकूलन कर सकता है। घने मॉडल की तुलना में, विरल मॉडल छोटे पैमाने के मॉडल में स्पष्ट लाभ दिखाते हैं।
शोध से पता चलता है कि विरल मॉडल प्रशिक्षण टोकन (ट्रेनिंग टोकन) को सक्रिय पैरामीटर (एक्टिव पैरामीटर) के बजाय बढ़ाना पसंद करते हैं, जो घने मॉडल के स्केलिंग तरीके के विपरीत है। व्यवस्थित प्रयोगों के माध्यम से, शोध टीम ने 0.3 अरब से 4 अरब सक्रिय पैरामीटर के बहुविधा मॉडल को प्रशिक्षित किया है, जिससे बहुविधा प्रसंस्करण में प्रारंभिक संलयन और विरल आर्किटेक्चर की क्षमता की पुष्टि होती है। ये निष्कर्ष न केवल पारंपरिक डिज़ाइन अवधारणाओं को चुनौती देते हैं, बल्कि भविष्य में कुशल बहुविधा AI सिस्टम के विकास के लिए नए विचार भी प्रदान करते हैं।




