हाल ही में टेनसिंग हन्युआन टीम ने हन्युआन इमेज 2.1 को आधिकारिक रूप से ओपन सोर्स कर दिया है, जो एक प्रभावी पाठ से चित्र उत्पादन मॉडल है, जो मूल 2K (2048 × 2048) अवस्था के चित्र उत्पादन का समर्थन करता है, जो ओपन सोर्स AI के उच्च अवस्था रचना के क्षेत्र में महत्वपूर्ण प्रगति को चिह्नित करता है। इस मॉडल को हंगिंग फेस और गिटहब प्लेटफॉर्म पर पूर्ण रूप से खुला कर दिया गया है, जिससे डेवलपर्स इसका सुगम रूप से एम्बेड कर सकते हैं। हन्युआन इमेज 2.1 बड़े डेटा सेट और बहु-विशेषज्ञ मॉडल अनुकूलित संरचना के माध्यम से संरचित वर्णन के साथ बढ़ाई गई पाठ-चित्र संरेखण क्षमता के साथ आता है, जो पाठ-चित्र संरेखण क्षमता को बढ़ा देता है, जिसकी गति 1K चित्र के समान होती है, जो भविष्य में AI के डिज़ाइन, विज्ञापन और सामग्री रचना में उपयोग को तेज कर सकता है।

मुख्य कार्यक्षमता सुधार: मूल 2K और जटिल प्रेरणा समर्थन

हन्युआन इमेज 2.1 का सबसे बड़ा आकर्षण इसकी उच्च गुणवत्ता वाले 2K उच्च अवस्था चित्र उत्पादन क्षमता है, जिसके द्वारा उपयोगकर्ता केवल पाठ प्रेरणा दर्ज करके विवरण भरे, अर्थपूर्ण संगत दृश्य सामग्री का उत्पादन कर सकते हैं। यह मॉडल 1000 टोकन तक के जटिल प्रेरणा शब्दों का समर्थन करता है, जो एक चित्र में बहुत सारे वस्तुओं के आकृति, भाव और स्थान व्यवस्था के सटीक नियंत्रण के लिए उपयोगी है, जो पारंपरिक AI में आमतौर पर होने वाली भ्रम की समस्या को रोकता है। उदाहरण के लिए, "एक पुराने वस्त्र में पोशाक वाला पुरुष सूर्यास्त में घोड़े पर सवार है, जिसके साथ एक तलवार चलाने वाली महिला है," के वर्णन के साथ मॉडल बहुत सारे वस्तुओं के उच्च समन्वय के साथ चित्र उत्पादन कर सकता है, जो चित्रकथा, पोस्टर या छापे के लिए उपयुक्त है।

image.png

इसके अलावा, मॉडल मूल रूप से चीनी और अंग्रेजी मिश्रित प्रेरणा शब्दों का समर्थन करता है और आंतरिक प्रेरणा शब्दों के उन्नयन योजना के साथ, उत्पादन के अधिक संगत और रचनात्मकता को बढ़ाता है। अंतर-दृश्य ज्ञान में, यह उत्कृष्ट प्रदर्शन करता है, जो भौतिक नियम, त्रि-आयामी अंतरिक्ष आदि जैसे जटिल संदर्भ के साथ संचालन कर सकता है, जिससे चित्र के वास्तविकता और सुंदरता को सुनिश्चित किया जाता है।

पाठ एम्बेडिंग और बहु-दृश्य अनुप्रयोग

हन्युआन इमेज 2.1 अपने चित्र में पाठ के अस्तरण के साथ सुचारू रूप से संयोजन कर सकता है, जिससे उपयोगकर्ता फॉन्ट, स्थिति और शैली के विशिष्ट निर्देश दे सकते हैं, जिससे व्यावसायिक स्तर के दृश्य प्रभाव के साथ उत्पादन किया जा सकता है, जैसे शीर्षक वाले पुस्तक कवर, प्रचार पोस्टर या सामाजिक मीडिया चित्र। ऐसी क्षमता व्यावसायिक डिज़ाइन स्थिति के लिए विशेष रूप से उपयोगी है, जो रचकर्ताओं के लिए सामग्री के त्वरित अनुक्रमण को सुगम बनाती है, बिना किसी अतिरिक्त संपादन उपकरण के।

मॉडल उत्पादन दक्षता के आधुनिकीकरण करता है, 2K चित्र के प्रक्रमण के समय 1K के समान होता है, जिससे केवल कुछ सेकंड में पूरा किया जा सकता है, जो गणना संसाधन खपत को बहुत कम कर देता है। इसके कारण, इसे सीमित संसाधन वाले वातावरण में भी दक्षता से चलाया जा सकता है, मोबाइल और क्लाउड डेप्लॉयमेंट के लिए उपयुक्त।

प्रदर्शन मूल्यांकन और ओपन सोर्स लाभ

विशेषज्ञ मूल्यांकन में, हन्युआन इमेज 2.1 ओपन सोर्स मॉडल के रूप में, बंद सोर्स सीड्रीम 3.0 के साथ लगभग बराबर है (-1.36%), और ओपन सोर्स गठबंधन में Qwen-Image (+2.89%) को पार कर गया है, जो अर्थपूर्ण संरेखण, विवरण नियंत्रण और बहु-वस्तु उत्पादन में उच्च अंक प्राप्त करता है। 100 से अधिक विशेषज्ञ मूल्यांकक ने परीक्षण में भाग लिया, जिससे इसके चित्र गुणवत्ता व्यावसायिक स्तर के रूप में पुष्टि की गई है।

टेनसिंग का दावा है कि यह ओपन सोर्स कदम एआई पारिस्थितिकी तंत्र के विकास के लिए है, मॉडल भार और कोड पूर्ण रूप से खुला कर दिया गया है, जिससे अनुकूलन के लिए स्वयं के समायोजन की अनुमति है। पिछले हन्युआन इमेज 2.0 के बजाय, इस संस्करण में अवस्था और नियंत्रण निश्चितता में गुणात्मक कदम उठाया गया है, जिसकी उम्मीद है कि यह डिज़ाइनर के लिए प्रमुख उपकरण बन जाएगा।

बाजार प्रभाव और भविष्य के दृष्टिकोण

हन्युआन इमेज 2.1 के जारी करने से, टेनसिंग ओपन सोर्स एआई चित्र उत्पादन के क्षेत्र में अपने नेतृत्व को मजबूत करता है, जो अंततः हंगिंग फेस समुदाय में विकसित और नवाचार करने के लिए विश्व विकसकर्ताओं के आगमन को आकर्षित कर सकता है।

पता: https://huggingface.co/tencent/HunyuanImage-2.1