हाल ही में, बीजिंग आर्टिफिशियल इंटेलिजेंस अकादमी ने एक नया ओपन-सोर्स सिस्टम - OmniGen2 लॉन्च किया। इस सिस्टम का ध्यान टेक्स्ट से छवि बनाने, छवि संपादन और संदर्भ छवि बनाने पर है।
2024 में जारी पहली पीढ़ी OmniGen के मुकाबले, OmniGen2 दो अलग-अलग डिकोडिंग पथ का उपयोग करता है: एक टेक्स्ट जनरेशन के लिए, दूसरा छवि जनरेशन के लिए, और दोनों के अपने अलग-अलग पैरामीटर और अलग-अलग छवि मार्कर हैं। इस डिज़ाइन के कारण मॉडल टेक्स्ट जनरेशन क्षमता बरकरार रखते हुए, बहु-माध्यम भाषा मॉडल के प्रदर्शन को दक्षता से बढ़ाता है।
OmniGen2 का केंद्रीय हिस्सा Qwen2.5-VL-3B ट्रांसफॉर्मर पर आधारित एक बड़ा बहु-माध्यम भाषा मॉडल (MLLM) है। छवि जनरेशन के मामले में, इस सिस्टम ने लगभग 4 अरब पैरामीटर के साथ एक कस्टम डिफ्यूज़न ट्रांसफॉर्मर का उपयोग किया है। मॉडल के पास " <|img|> " टैग होने पर छवि जनरेशन मोड में स्वचालित रूप से बदल जाता है। ध्यान देने योग्य बात यह है कि OmniGen2 कई प्रकार के प्रेरणादायक और कलात्मक शैली के साथ काम कर सकता है, लेकिन इसके द्वारा उत्पादित फोटो-स्तरीय छवियाँ अभी भी स्पष्टता में सुधार की आवश्यकता है।
OmniGen2 को प्रशिक्षित करने के लिए, अनुसंधान टीम ने ओपन-सोर्स डेटा सेट और विशेष संग्रह से लगभग 1.4 करोड़ छवियों का उपयोग किया। इसके अलावा, उन्होंने नई तकनीक विकसित की, जो वीडियो में समान फ्रेम (जैसे, एक मुस्कुराते और मुस्कुराए बिना चेहरे) के निकाले गए और भाषा मॉडल के उपयोग से संबंधित संपादन निर्देशों के उत्पादन करती है।
OmniGen2 का एक और चमकदार बिंदु इसकी खुद की जांच योजना है, जो मॉडल को बनाई गई छवि का आत्म-मूल्यांकन करने की अनुमति देती है और कई चक्रों में सुधार करती है। यह प्रणाली बनाई गई छवि में दोषों की खोज कर सकती है और विशिष्ट सुधार सुझाव प्रस्तुत कर सकती है।
इस प्रणाली के प्रदर्शन के मूल्यांकन के लिए, अनुसंधान टीम ने OmniContext बेंचमार्क परीक्षण शुरू किया, जिसमें चरित्र, वस्तु और स्थिति के तीन मुख्य वर्ग हैं, जिनमें प्रत्येक वर्ग में आठ उपकार्य और प्रत्येक के 50 उदाहरण हैं। मूल्यांकन GPT-4.1 के माध्यम से किया गया था, जिसका मुख्य मापदंड टिप्पणी की सटीकता और विषय की एकरूपता है। OmniGen2 का कुल अंक 7.18 है, जो सभी अन्य ओपन-सोर्स मॉडलों को पार कर गया है, जबकि GPT-4o का अंक 8.8 है।
हालांकि OmniGen2 कई बेंचमार्क परीक्षणों में अच्छा प्रदर्शन करता है, फिर भी कुछ कमियां हैं: अंग्रेजी प्रेरणा चीनी की तुलना में अच्छा प्रदर्शन करती है, शारीरिक आकृति में परिवर्तन जटिल हैं, और आउटपुट गुणवत्ता इनपुट छवि पर निर्भर करती है। अस्पष्ट बहु-छवि प्रेरणा के मामले में, प्रणाली को स्पष्ट वस्तु स्थान निर्देशों की आवश्यकता होती है।
अनुसंधान टीम मॉडल, प्रशिक्षण डेटा और निर्माण पाइपलाइन को Hugging Face प्लेटफॉर्म पर जारी करने की योजना बना रही है।
मुख्य बातें:
🌟 OmniGen2 एक ओपन-सोर्स टेक्स्ट-आधारित छवि जनरेशन प्रणाली है, जो अलग-अलग टेक्स्ट और छवि डिकोडिंग पथ का उपयोग करती है।
🎨 यह विभिन्न कला शैलियों के छवि जनरेशन के साथ-साथ आत्म-मूल्यांकन और सुधार क्षमता भी रखता है।
📈 OmniGen2 कई बेंचमार्क परीक्षणों में अच्छा प्रदर्शन करता है, विशेष रूप से छवि संपादन में एक नई ओपन-सोर्स मॉडल रिकॉर्ड बनाता है।