AI समाचार

वैश्विक AI नवाचार का कोई भी क्षण न चूकें

AI दैनिक

दैनिक तीन मिनट का AI उद्योग रुझान

AI समयरेखा

AI उद्योग मील के पत्थर

अल हार्डवेयर

सभी ऐ हार्डवेयर उत्पादों की सूची देता है.

AI मुद्रीकरण गाइड

नवीनतम मामले

AI मुद्रीकरण मामला साझा करना

छवि संग्रह

AI छवि निर्माण मुद्रीकरण मामले

वीडियो संग्रह

AI वीडियो निर्माण मुद्रीकरण मामले

ऑडियो संग्रह

AI ऑडियो निर्माण मुद्रीकरण मामले

सामग्री संग्रह

AI सामग्री लेखन मुद्रीकरण मामले

AI ट्यूटोरियल

नवीनतम ट्यूटोरियल

नवीनतम AI ट्यूटोरियल का मुफ्त साझाकरण

AI उत्पाद रैंकिंग

AI वेबसाइटों की कुल विज़िट रैंकिंग दिखाता है

AI ट्रैफ़िक वृद्धि रैंकिंग

ट्रैफ़िक द्वारा सबसे तेज़ी से बढ़ती AI वेबसाइटों को ट्रैक करें

AI ट्रैफ़िक गिरावट रैंकिंग

महत्वपूर्ण ट्रैफ़िक गिरावट वाली AI वेबसाइटों पर ध्यान दें

AI साप्ताहिक रैंकिंग

AI वेबसाइटों की साप्ताहिक विज़िट रैंकिंग दिखाता है

AI ओपन सोर्स प्रोजेक्ट लाइब्रेरी

अवलोकन

GitHub लोकप्रिय AI ओपन सोर्स प्रोजेक्ट का अवलोकन

उत्पाद लाइब्रेरी टूल नेविगेशन MCP

नए ओम्नीजेन 2 एआई प्रणाली: जैसे कि जीपीटी-4ओ में छवि और पाठ उत्पादन के साथ एकीकृत

AIbase基地

द्वारा प्रकाशितAI समाचार · 6 मिनट पढ़ें · Jun 30, 2025

हाल ही में, बीजिंग आर्टिफिशियल इंटेलिजेंस अकादमी ने एक नया ओपन-सोर्स सिस्टम - OmniGen2 लॉन्च किया। इस सिस्टम का ध्यान टेक्स्ट से छवि बनाने, छवि संपादन और संदर्भ छवि बनाने पर है।

2024 में जारी पहली पीढ़ी OmniGen के मुकाबले, OmniGen2 दो अलग-अलग डिकोडिंग पथ का उपयोग करता है: एक टेक्स्ट जनरेशन के लिए, दूसरा छवि जनरेशन के लिए, और दोनों के अपने अलग-अलग पैरामीटर और अलग-अलग छवि मार्कर हैं। इस डिज़ाइन के कारण मॉडल टेक्स्ट जनरेशन क्षमता बरकरार रखते हुए, बहु-माध्यम भाषा मॉडल के प्रदर्शन को दक्षता से बढ़ाता है।

OmniGen2 का केंद्रीय हिस्सा Qwen2.5-VL-3B ट्रांसफॉर्मर पर आधारित एक बड़ा बहु-माध्यम भाषा मॉडल (MLLM) है। छवि जनरेशन के मामले में, इस सिस्टम ने लगभग 4 अरब पैरामीटर के साथ एक कस्टम डिफ्यूज़न ट्रांसफॉर्मर का उपयोग किया है। मॉडल के पास " <|img|> " टैग होने पर छवि जनरेशन मोड में स्वचालित रूप से बदल जाता है। ध्यान देने योग्य बात यह है कि OmniGen2 कई प्रकार के प्रेरणादायक और कलात्मक शैली के साथ काम कर सकता है, लेकिन इसके द्वारा उत्पादित फोटो-स्तरीय छवियाँ अभी भी स्पष्टता में सुधार की आवश्यकता है।

OmniGen2 को प्रशिक्षित करने के लिए, अनुसंधान टीम ने ओपन-सोर्स डेटा सेट और विशेष संग्रह से लगभग 1.4 करोड़ छवियों का उपयोग किया। इसके अलावा, उन्होंने नई तकनीक विकसित की, जो वीडियो में समान फ्रेम (जैसे, एक मुस्कुराते और मुस्कुराए बिना चेहरे) के निकाले गए और भाषा मॉडल के उपयोग से संबंधित संपादन निर्देशों के उत्पादन करती है।

OmniGen2 का एक और चमकदार बिंदु इसकी खुद की जांच योजना है, जो मॉडल को बनाई गई छवि का आत्म-मूल्यांकन करने की अनुमति देती है और कई चक्रों में सुधार करती है। यह प्रणाली बनाई गई छवि में दोषों की खोज कर सकती है और विशिष्ट सुधार सुझाव प्रस्तुत कर सकती है।

इस प्रणाली के प्रदर्शन के मूल्यांकन के लिए, अनुसंधान टीम ने OmniContext बेंचमार्क परीक्षण शुरू किया, जिसमें चरित्र, वस्तु और स्थिति के तीन मुख्य वर्ग हैं, जिनमें प्रत्येक वर्ग में आठ उपकार्य और प्रत्येक के 50 उदाहरण हैं। मूल्यांकन GPT-4.1 के माध्यम से किया गया था, जिसका मुख्य मापदंड टिप्पणी की सटीकता और विषय की एकरूपता है। OmniGen2 का कुल अंक 7.18 है, जो सभी अन्य ओपन-सोर्स मॉडलों को पार कर गया है, जबकि GPT-4o का अंक 8.8 है।

हालांकि OmniGen2 कई बेंचमार्क परीक्षणों में अच्छा प्रदर्शन करता है, फिर भी कुछ कमियां हैं: अंग्रेजी प्रेरणा चीनी की तुलना में अच्छा प्रदर्शन करती है, शारीरिक आकृति में परिवर्तन जटिल हैं, और आउटपुट गुणवत्ता इनपुट छवि पर निर्भर करती है। अस्पष्ट बहु-छवि प्रेरणा के मामले में, प्रणाली को स्पष्ट वस्तु स्थान निर्देशों की आवश्यकता होती है।

अनुसंधान टीम मॉडल, प्रशिक्षण डेटा और निर्माण पाइपलाइन को Hugging Face प्लेटफॉर्म पर जारी करने की योजना बना रही है।

मुख्य बातें:
🌟 OmniGen2 एक ओपन-सोर्स टेक्स्ट-आधारित छवि जनरेशन प्रणाली है, जो अलग-अलग टेक्स्ट और छवि डिकोडिंग पथ का उपयोग करती है।
🎨 यह विभिन्न कला शैलियों के छवि जनरेशन के साथ-साथ आत्म-मूल्यांकन और सुधार क्षमता भी रखता है।
📈 OmniGen2 कई बेंचमार्क परीक्षणों में अच्छा प्रदर्शन करता है, विशेष रूप से छवि संपादन में एक नई ओपन-सोर्स मॉडल रिकॉर्ड बनाता है।

यह लेख AIbase दैनिक से है

【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।

—— AIbase दैनिक समूह द्वारा बनाया गया

AI समाचार

AI दैनिक

AI समयरेखा

अल हार्डवेयर

नवीनतम मामले

छवि संग्रह

वीडियो संग्रह

ऑडियो संग्रह

सामग्री संग्रह

नवीनतम ट्यूटोरियल

AI उत्पाद रैंकिंग

AI ट्रैफ़िक वृद्धि रैंकिंग

AI ट्रैफ़िक गिरावट रैंकिंग

AI साप्ताहिक रैंकिंग

संयुक्त राज्य अमेरिका

चीन

भारत

ब्राजील

छवि निर्माण

निजी सहायक

चरित्र निर्माण

वीडियो निर्माण

AI प्रोजेक्ट रैंकिंग

AI प्रोजेक्ट विकास रैंकिंग

AI डेवलपर रैंकिंग

AI संगठन रैंकिंग

डीपसीक

TTS

LLM

ChatGPT

अवलोकन

नए ओम्नीजेन 2 एआई प्रणाली: जैसे कि जीपीटी-4ओ में छवि और पाठ उत्पादन के साथ एकीकृत

AIbase基地

यह लेख AIbase दैनिक से है