क्विकहैंड ने आज एक बड़ा कदम उठाया है, अपने खुद के इमेज जनरेशन मॉडल - "कोटु कोलर्स" को ओपन-सोर्स किया है। यह एक साधारण मॉडल नहीं है, इसे अरबों टेक्स्ट-इमेज जोड़ों पर प्रशिक्षित किया गया है, जिसमें एक सामान्य भाषा मॉडल (GLM) टेक्स्ट एन्कोडर के रूप में है, जो हिंदी और अंग्रेजी दोनों भाषाओं के प्रॉम्प्ट का समर्थन करता है, और 256 टोकन तक के संदर्भ को संभाल सकता है।

कोटु कोलर्स की विशेषताएँ:

  • हिंदी-इंग्लिश द्विभाषा समर्थन: सामान्य भाषा मॉडल (GLM) को टेक्स्ट एन्कोडर के रूप में उपयोग करके, मॉडल न केवल अंग्रेजी में माहिर है, बल्कि हिंदी प्रॉम्प्ट को भी सही तरीके से समझ और उपयोग कर सकता है।

  • लंबे टेक्स्ट की प्रोसेसिंग क्षमता: 256 टोकन तक के संदर्भ की लंबाई का समर्थन करता है, जिससे रचनाकार अपने विचारों को विस्तार से व्यक्त कर सकते हैं, चाहे वह जटिल दृश्य हो या समृद्ध कहानी।

  • विशाल डेटा प्रशिक्षण: अरबों टेक्स्ट-इमेज जोड़ों पर प्रशिक्षण के कारण, मॉडल के पास एक विशाल ज्ञानकोश है, जो विविध और सटीक चित्र उत्पन्न कर सकता है।

  • चीन की सांस्कृतिक तत्वों का अनुकूलन: विशेष रूप से चीन की सांस्कृतिक तत्वों के लिए अनुकूलित किया गया है, जिससे उत्पन्न चित्र चीन की सांस्कृतिक विशेषताओं के करीब होते हैं, स्थानीयकरण की आवश्यकताओं को पूरा करते हैं।

  • हिंदी टेक्स्ट जनरेशन: "कोटु कोलर्स" न केवल हिंदी को समझ सकता है, बल्कि उत्पन्न चित्रों में हिंदी टेक्स्ट को भी शामिल कर सकता है, चित्रों को और अधिक अभिव्यक्ति प्रदान करता है।

AIbase का परीक्षण करने पर पता चला कि, वर्तमान में कोटु चित्रों में हिंदी को सम्मिलित करने में बेहतर प्रदर्शन कर रहा है, लगभग सभी सही आउटपुट कर रहा है, लेकिन अंग्रेजी में, शब्दों की कमी या गलतियों की संभावना है।

QQ截图20240708112714.jpg

QQ截图20240708111705.jpg

जैसा कि देखा जा सकता है, ऊपर उत्पन्न की गई लेटी हुई बिल्ली, हिंदी में पूरी तरह से सही है, लेकिन जब मैंने "AIbase" को बदला, तो कुछ शब्द गायब हो गए। हिंदी में आउटपुट करने के मामले में, कोटु की प्रदर्शन सराहनीय है, लेकिन ध्यान दें, टेक्स्ट बहुत लंबा नहीं होना चाहिए, लंबा होने पर गलतियाँ होने की संभावना होती है।

QQ截图20240708112728.jpg

यह मॉडल केवल एक साधारण उपकरण नहीं है, इसके पीछे क्विकहैंड की शक्तिशाली तकनीकी समर्थन है। यह विशाल डेटा पर प्रशिक्षित है, और चीन की सांस्कृतिक तत्वों के लिए विशेष अनुकूलन है, जिससे उत्पन्न चित्रों में अधिक चीनी स्वाद होता है। यह केवल तकनीकी प्रगति नहीं है, बल्कि सांस्कृतिक विरासत का भी प्रतीक है।

ओपन-सोर्स योजना में CN (ControlNet) समर्थन, LoRa (लो-रैंक अनुकूलन), IPA (इमेज प्रॉम्प्ट अनुकूलन) और ComfyUI का सीधा समर्थन भी शामिल है, ये सभी आपके रचनात्मक प्रक्रिया को और अधिक सहज और व्यक्तिगत बनाने के लिए हैं।

तकनीकी विवरण:

  • "कोटु कोलर्स" SDXL मॉडल आर्किटेक्चर पर आधारित है, और द्विभाषा समझ और टेक्स्ट जनरेशन क्षमता को बढ़ाने के लिए ChatGLM256 तकनीक को एकीकृत करता है।

  • यह ध्यान देने योग्य है कि इस मॉडल को चलाने के लिए लगभग 19GB की बड़ी वीडियो मेमोरी की आवश्यकता होती है, जो हार्डवेयर उपकरणों पर कुछ आवश्यकताओं को लागू कर सकता है।

क्विकहैंड द्वारा "कोटु कोलर्स" का ओपन-सोर्स करना न केवल तकनीकी समुदाय के लिए एक योगदान है, बल्कि रचनात्मक स्वतंत्रता को भी एक साहसी बढ़ावा है। यह क्विकहैंड की AI तकनीक के प्रति दृढ़ संकल्प और क्षमता को दर्शाता है, और हमें कला रचना में AI की अनंत संभावनाएँ दिखाता है।

कोटु की आधिकारिक वेबसाइट: https://top.aibase.com/tool/kuaishouketudamoxingkolors

प्रोजेक्ट का पता: https://top.aibase.com/tool/kolors