हाल ही में, बीजिंग आर्टिफिशियल इंटेलिजेंस अकादमी ने एक नया ओपन-सोर्स सिस्टम - OmniGen2 लॉन्च किया। इस सिस्टम का ध्यान टेक्स्ट से छवि बनाने, छवि संपादन और संदर्भ छवि बनाने पर है।

2024 में जारी पहली पीढ़ी OmniGen के मुकाबले, OmniGen2 दो अलग-अलग डिकोडिंग पथ का उपयोग करता है: एक टेक्स्ट जनरेशन के लिए, दूसरा छवि जनरेशन के लिए, और दोनों के अपने अलग-अलग पैरामीटर और अलग-अलग छवि मार्कर हैं। इस डिज़ाइन के कारण मॉडल टेक्स्ट जनरेशन क्षमता बरकरार रखते हुए, बहु-माध्यम भाषा मॉडल के प्रदर्शन को दक्षता से बढ़ाता है।

image.png

OmniGen2 का केंद्रीय हिस्सा Qwen2.5-VL-3B ट्रांसफॉर्मर पर आधारित एक बड़ा बहु-माध्यम भाषा मॉडल (MLLM) है। छवि जनरेशन के मामले में, इस सिस्टम ने लगभग 4 अरब पैरामीटर के साथ एक कस्टम डिफ्यूज़न ट्रांसफॉर्मर का उपयोग किया है। मॉडल के पास " <|img|> " टैग होने पर छवि जनरेशन मोड में स्वचालित रूप से बदल जाता है। ध्यान देने योग्य बात यह है कि OmniGen2 कई प्रकार के प्रेरणादायक और कलात्मक शैली के साथ काम कर सकता है, लेकिन इसके द्वारा उत्पादित फोटो-स्तरीय छवियाँ अभी भी स्पष्टता में सुधार की आवश्यकता है।

image.png

OmniGen2 को प्रशिक्षित करने के लिए, अनुसंधान टीम ने ओपन-सोर्स डेटा सेट और विशेष संग्रह से लगभग 1.4 करोड़ छवियों का उपयोग किया। इसके अलावा, उन्होंने नई तकनीक विकसित की, जो वीडियो में समान फ्रेम (जैसे, एक मुस्कुराते और मुस्कुराए बिना चेहरे) के निकाले गए और भाषा मॉडल के उपयोग से संबंधित संपादन निर्देशों के उत्पादन करती है।

OmniGen2 का एक और चमकदार बिंदु इसकी खुद की जांच योजना है, जो मॉडल को बनाई गई छवि का आत्म-मूल्यांकन करने की अनुमति देती है और कई चक्रों में सुधार करती है। यह प्रणाली बनाई गई छवि में दोषों की खोज कर सकती है और विशिष्ट सुधार सुझाव प्रस्तुत कर सकती है।

इस प्रणाली के प्रदर्शन के मूल्यांकन के लिए, अनुसंधान टीम ने OmniContext बेंचमार्क परीक्षण शुरू किया, जिसमें चरित्र, वस्तु और स्थिति के तीन मुख्य वर्ग हैं, जिनमें प्रत्येक वर्ग में आठ उपकार्य और प्रत्येक के 50 उदाहरण हैं। मूल्यांकन GPT-4.1 के माध्यम से किया गया था, जिसका मुख्य मापदंड टिप्पणी की सटीकता और विषय की एकरूपता है। OmniGen2 का कुल अंक 7.18 है, जो सभी अन्य ओपन-सोर्स मॉडलों को पार कर गया है, जबकि GPT-4o का अंक 8.8 है।

हालांकि OmniGen2 कई बेंचमार्क परीक्षणों में अच्छा प्रदर्शन करता है, फिर भी कुछ कमियां हैं: अंग्रेजी प्रेरणा चीनी की तुलना में अच्छा प्रदर्शन करती है, शारीरिक आकृति में परिवर्तन जटिल हैं, और आउटपुट गुणवत्ता इनपुट छवि पर निर्भर करती है। अस्पष्ट बहु-छवि प्रेरणा के मामले में, प्रणाली को स्पष्ट वस्तु स्थान निर्देशों की आवश्यकता होती है।

अनुसंधान टीम मॉडल, प्रशिक्षण डेटा और निर्माण पाइपलाइन को Hugging Face प्लेटफॉर्म पर जारी करने की योजना बना रही है।

मुख्य बातें:   

🌟 OmniGen2 एक ओपन-सोर्स टेक्स्ट-आधारित छवि जनरेशन प्रणाली है, जो अलग-अलग टेक्स्ट और छवि डिकोडिंग पथ का उपयोग करती है।   

🎨 यह विभिन्न कला शैलियों के छवि जनरेशन के साथ-साथ आत्म-मूल्यांकन और सुधार क्षमता भी रखता है।   

📈 OmniGen2 कई बेंचमार्क परीक्षणों में अच्छा प्रदर्शन करता है, विशेष रूप से छवि संपादन में एक नई ओपन-सोर्स मॉडल रिकॉर्ड बनाता है।