हाल ही में समाप्त हुए अंतरराष्ट्रीय मशीन लर्निंग कॉन्फ्रेंस (ICML) पर, क्विकस्टॉर और शंघाई जियाओतोंग विश्वविद्यालय ने एक अद्भुत बहु-माध्यम जनरेटिव अंतर्दृष्टि मॉडल - Orthus के साथ एक साथ काम किया। इस मॉडल के आत्म-पुनरावृत्ति Transformer आर्किटेक्चर पर आधारित होने के कारण, यह छवि और टेक्स्ट के बीच सुविधापूर्वक बदल सकता है, जो अब खुला स्रोत है।
Orthus का सबसे बड़ा आकर्षण इसकी उत्कृष्ट गणना दक्षता और शक्तिशाली अधिग्रहण क्षमता है। अध्ययन दर्शाता है कि केवल बहुत कम गणना संसाधन की आवश्यकता के साथ, Orthus वर्तमान मिश्रित अंतर्दृष्टि जनरेशन मॉडल, जैसे कि Chameleon और Show-o के बजाय कई छवि समझ मापदंडों पर अतिक्रमण करता है। GenEval मापदंड पर टेक्स्ट से छवि जनरेशन में, Orthus विशेष रूप से इसके लिए डिज़ाइन किए गए डिफ्यूज़न मॉडल SDXL के ऊपर भी उत्कृष्ट प्रदर्शन करता है।
यह मॉडल टेक्स्ट और छवि के बीच अंतरक्रिया के साथ-साथ छवि संपादन और वेबपेज जनरेशन जैसे अनुप्रयोगों में भी बड़ा संभावना दिखाता है। Orthus की आर्किटेक्चर बहुत चालाक है, जिसमें आत्म-पुनरावृत्ति Transformer मुख्य नेटवर्क के रूप में उपयोग किया गया है, जिसमें विशिष्ट मोडल के जनरेशन हेड शामिल हैं, जो क्रमशः टेक्स्ट और छवि के लिए जनरेट करते हैं। इस डिज़ाइन ने छवि विवरण के मॉडलिंग और टेक्स्ट विशेषताओं के अभिव्यक्ति के बीच पृथकता को दूर कर दिया है, जिससे Orthus टेक्स्ट और छवि के बीच कठिन संबंधों के मॉडलिंग पर ध्यान केंद्रित कर सकता है।
विशेष रूप से, Orthus कई मुख्य घटकों से बना है, जैसे कि टेक्स्ट टोकनाइज़र, विज़ुअल ऑटोएंकोडर और दो विशिष्ट मोडल के एम्बेडिंग मॉड्यूल। यह टेक्स्ट और छवि विशेषताओं को एक एकीकृत प्रस्तुति अंतरिक्ष में एक साथ लाता है, जिससे मुख्य नेटवर्क को मोडल के बीच के निर्भरता के साथ अधिक कुशलता से निपटने में सक्षम बनाता है। मॉडल अनुमान चरण में विशिष्ट टैग के आधार पर आत्म-पुनरावृत्ति रूप से अगला टेक्स्ट टोकन या छवि विशेषता जनरेट करता है, जो बहुत अधिक लचीलापन दिखाता है।
इन नवाचार डिज़ाइन के माध्यम से, Orthus एक ओर एंड-टू-एंड डिफ्यूज़न मॉडलिंग और आत्म-पुनरावृत्ति मेकैनिज्म के बीच असंगति से बचता है, और छवि असततता के कारण जानकारी के नुकसान को कम करता है। यह मॉडल हेकामिंग के छवि जनरेशन के क्षेत्र में MAR कार्य के बहु-माध्यम क्षेत्र में सफल विस्तार के रूप में देखा जा सकता है।
क्विकस्टॉर और शंघाई जियाओतोंग विश्वविद्यालय के इस सहयोग से बहु-माध्यम जनरेशन मॉडल के विकास के लिए नई संभावनाएं लाई गई हैं, जो उद्योग और विशेषज्ञ समुदाय द्वारा ध्यान आकर्षित करने योग्य है।