ओस्ट्रिस टीम ने Flex.2-preview जारी किया है, जो कि 80 करोड़ पैरामीटर पर आधारित एक टेक्स्ट-टू-इमेज डिफ्यूज़न मॉडल है, जिसे ComfyUI वर्कफ़्लो में एकीकृत करने के लिए डिज़ाइन किया गया है। AIbase के अनुसार, यह मॉडल लाइनों, मुद्राओं और गहराई पर आधारित नियंत्रण उत्पादन क्षमता में उत्कृष्ट प्रदर्शन करता है, सामान्य नियंत्रण और छवि मरम्मत कार्यों का समर्थन करता है, और Flux.1Schnell से OpenFlux.1, Flex.1-alpha तक के माइक्रो-ट्यूनिंग विकास पथ को जारी रखता है। Flex.2-preview को Hugging Face पर ओपन सोर्स किया गया है, और Apache2.0 लाइसेंस और लचीले वर्कफ़्लो एकीकरण के साथ, यह तेज़ी से AI कला निर्माण समुदाय का केंद्र बन गया है।

image.png

मुख्य विशेषताएँ: सामान्य नियंत्रण और वर्कफ़्लो का निर्बाध एकीकरण

Flex.2-preview अपनी शक्तिशाली नियंत्रण क्षमता और ComfyUI के मूल समर्थन के साथ टेक्स्ट-टू-इमेज पीढ़ी को फिर से परिभाषित करता है। AIbase ने इसके मुख्य कार्यों का विश्लेषण किया है:

सामान्य नियंत्रण समर्थन: अंतर्निहित रेखाएँ (कैनी), मुद्राएँ और गहराई नियंत्रण, उपयोगकर्ताओं को छवि के माध्यम से उत्पादन परिणामों को सटीक रूप से निर्देशित करने की अनुमति देते हैं, जैसे कि 3D शैली के दृश्यों को गहराई से उत्पन्न करना या रेखाचित्रों से परिष्कृत चित्र बनाना।

छवि मरम्मत क्षमता: उन्नत छवि मरम्मत (इनपेंटिंग) का समर्थन करता है, उपयोगकर्ता सामग्री प्रतिस्थापन या मरम्मत के लिए मास्क निर्दिष्ट क्षेत्रों का उपयोग कर सकते हैं, जैसे कि कुत्ते को "सफ़ेद रोबोट कुत्ता बेंच पर बैठा हुआ" से बदलना।

ComfyUI वर्कफ़्लो एकीकरण: मॉडल ComfyUI के लिए अनुकूलित है, नोडलाइज़्ड वर्कफ़्लो समर्थन प्रदान करता है, जटिल कार्यों के कॉन्फ़िगरेशन को सरल करता है, जैसे कि टेक्स्ट-टू-इमेज, इमेज-टू-इमेज और नियंत्रण नेटवर्क का संयोजन।

कुशल उत्पादन: 80 करोड़ पैरामीटर के संक्षिप्त आर्किटेक्चर पर आधारित, 1024x1024 उच्च-रिज़ॉल्यूशन छवियों को उत्पन्न करने में केवल 50 चरणों की आवश्यकता होती है, जो 16GB VRAM वाले उपभोक्ता-स्तरीय GPU के लिए उपयुक्त है।

AIbase ने देखा है कि समुदाय के परीक्षणों में, उपयोगकर्ताओं ने Flex.2-preview के नियंत्रण नोड्स का उपयोग करके "साइबरपंक शहर की रात का दृश्य" उत्पन्न किया है, गहराई मानचित्र और रेखा नियंत्रण के माध्यम से उच्च स्तर की स्थिरता प्राप्त की है, जो रचनात्मक डिजाइन में इसकी क्षमता को दर्शाता है।

ostris_Flex.2-preview 昨天发布了,这是个8B大小的文本生成图像的扩散模型。这个 (1).jpg

तकनीकी आर्किटेक्चर: Flux.1Schnell से Flex.2 तक का विकास

Flex.2-preview Black Forest Labs के Flux.1Schnell पर आधारित है, जिसे कई चरणों में माइक्रो-ट्यूनिंग और अनुकूलन किया गया है। AIbase के विश्लेषण के अनुसार, इसके तकनीकी विकास में शामिल हैं:

आर्किटेक्चर अनुकूलन: Flux.1 के रेक्टिफाइड फ्लो ट्रांसफॉर्मर (RFT) आर्किटेक्चर को विरासत में मिला है, जिसमें 8 डबल ट्रांसफॉर्मर ब्लॉक हैं (Flux.1-dev के 19 की तुलना में हल्का), गाइडेंस एम्बेडर के माध्यम से क्लासिफायर-फ्री गाइडेंस (CFG) पर निर्भरता को समाप्त करता है।

नियंत्रण और मरम्मत एकीकरण: 16-चैनल संभावित स्थान डिज़ाइन को नियोजित करता है, शोर संभावित, परिवर्तनशील ऑटोएन्कोडर (VAE) द्वारा एन्कोड की गई मरम्मत की गई छवियों, मास्क और नियंत्रण इनपुट को मिलाकर कुल 49 चैनल बनाता है, जो लचीले नियंत्रण और मरम्मत वर्कफ़्लो का समर्थन करता है।

ओपन सोर्स और माइक्रो-ट्यूनिंग समर्थन: AI-Toolkit के माध्यम से माइक्रो-ट्यूनिंग टूल प्रदान करता है, डेवलपर्स गाइडेंस एम्बेडर को दरकिनार करके कस्टमाइज्ड प्रशिक्षण कर सकते हैं, विशिष्ट शैलियों या विषयों के मॉडल उत्पन्न कर सकते हैं, और Apache2.0 लाइसेंस की व्यावसायिक अनुकूलता को बनाए रख सकते हैं।

कुशल अनुमान: FP8 और bfloat16 सटीकता का समर्थन करता है, TorchAo के 8-बिट क्वांटाइजेशन के माध्यम से मेमोरी उपयोग को कम करता है, और RTX3090 जैसे हार्डवेयर पर अनुमान गति को अनुकूलित करता है।

AIbase का मानना है कि Flex.2-preview का हल्का डिज़ाइन और सामान्य नियंत्रण क्षमता इसे ComfyUI पारिस्थितिकी तंत्र के लिए एक आदर्श विकल्प बनाती है, जो जटिल वर्कफ़्लो में Flux.1Schnell की तुलना में अधिक लचीला है।

अनुप्रयोग परिदृश्य: कला निर्माण से लेकर व्यावसायिक डिज़ाइन तक

Flex.2-preview की बहुमुखी प्रतिभा इसे कई रचनात्मक और व्यावसायिक परिदृश्यों के लिए उपयुक्त बनाती है। AIbase ने इसके मुख्य अनुप्रयोगों को संक्षेपित किया है:

डिजिटल कला और चित्रण: कलाकार रेखा और गहराई नियंत्रण के माध्यम से अवधारणा कला या चित्रण जल्दी से उत्पन्न कर सकते हैं, जो गेम कला और एनीमेशन पूर्व-दृश्य के लिए उपयुक्त है।

विज्ञापन और ब्रांड डिज़ाइन: छवि मरम्मत फ़ंक्शन का उपयोग करके विज्ञापन सामग्री को जल्दी से समायोजित करें, जैसे कि उत्पादों या पृष्ठभूमि को बदलना, जबकि ब्रांड शैली की स्थिरता को बनाए रखना।

सिनेमा और सामग्री निर्माण: मुद्रा नियंत्रण पर आधारित चरित्र डिज़ाइन या दृश्य पीढ़ी का समर्थन करता है, स्टोरीबोर्ड और दृश्य प्रभाव विकास को तेज करता है।

शिक्षा और प्रोटोटाइप डिज़ाइन: शिक्षण या उत्पाद प्रोटोटाइप के लिए कम लागत वाली छवि पीढ़ी योजनाएँ प्रदान करता है, छात्र और स्टार्टअप जल्दी से दृश्य रचनाओं को पुनरावृति कर सकते हैं।

समुदाय की प्रतिक्रिया से पता चलता है कि Flex.2-preview जटिल संकेतों ("भापपंक मैकेनिक कारखाने में रोबोट की मरम्मत कर रहा है" जैसे) को संसाधित करते समय, छवि विवरण और नियंत्रण सटीकता OpenFlux.1 से अधिक है, विशेष रूप से हाथ और पाठ पीढ़ी में MidJourney के स्तर के करीब है। AIbase ने देखा है कि XLabs के ControlNet के साथ इसकी एकीकरण क्षमता ने वर्कफ़्लो की विविधता को और बढ़ा दिया है।

प्रारंभिक मार्गदर्शिका: तेज़ परिनियोजन और ComfyUI एकीकरण

AIbase को पता चला है कि Flex.2-preview का परिनियोजन ComfyUI उपयोगकर्ताओं के लिए बेहद अनुकूल है, हार्डवेयर आवश्यकताएँ 16GB VRAM (RTX3060 या उच्चतर अनुशंसित) हैं। डेवलपर्स निम्नलिखित चरणों का पालन करके जल्दी से शुरू कर सकते हैं:

Hugging Face से Flex.2-preview.safetensors (huggingface.co/ostris/Flex.2-preview) डाउनलोड करें, और इसे ComfyUI/models/diffusion_models/ में रखें;

सुनिश्चित करें कि ComfyUI नवीनतम संस्करण (ComfyUI Manager के "Update All" के माध्यम से) में अपडेट किया गया है, और आवश्यक CLIP मॉडल (t5xxl_fp16.safetensors और clip_l.safetensors) और VAE (ae.safetensors) स्थापित हैं;

आधिकारिक तौर पर प्रदान किए गए flex2-workflow.json को डाउनलोड करें, इसे ComfyUI में वर्कफ़्लो लोड करने के लिए खींचें, प्रॉम्प्ट और नियंत्रण छवियों (जैसे गहराई मानचित्र या रेखाचित्र) को कॉन्फ़िगर करें;

अनुमान चलाएँ, control_strength (0.5 अनुशंसित) और guidance_scale (3.5 अनुशंसित) को समायोजित करें, 1024x1024 छवियाँ उत्पन्न करें।

समुदाय प्रदान किए गए Diffusers उदाहरण कोड या ComfyUI के Flex2Conditioning Node का उपयोग करके उत्पादन प्रभाव को अनुकूलित करने का सुझाव देता है। AIbase याद दिलाता है कि पहली बार चलाने पर torch, diffusers और transformers लाइब्रेरी स्थापित करना और वर्कफ़्लो में नोड कनेक्शन की पूर्णता की जांच करना सुनिश्चित करें।

प्रदर्शन तुलना: पूर्ववर्ती और प्रतिस्पर्धियों को पार करना

Flex.2-preview ने अपने पूर्ववर्ती OpenFlux.1 और Flux.1Schnell की तुलना में प्रदर्शन में उल्लेखनीय सुधार किया है। AIbase ने मुख्यधारा के मॉडल के साथ इसकी तुलना संकलित की है:

छवि गुणवत्ता: VBench मूल्यांकन में, Flex.2-preview का CLIP स्कोर (0.82) Flux.1-dev (0.84) के करीब है, Flux.1Schnell (0.79) से बेहतर है, विशेष रूप से हाथ के विवरण और जटिल संरचना में बेहतर प्रदर्शन करता है।

नियंत्रण सटीकता: XLabs ControlNet के साथ संयोजन में, Flex.2 कैनी और गहराई नियंत्रण कार्यों में InstantX के Flux.1-dev-Controlnet-Union-alpha की तुलना में लगभग 8% अधिक स्थिरता दिखाता है।

अनुमान गति: 1024x1024 छवियों (50 चरण) को उत्पन्न करने में औसतन 20 सेकंड (RTX3090, FP8) लगते हैं, जो Flux.1-dev की तुलना में लगभग 15% तेज है, जो त्वरित पुनरावृत्ति के लिए उपयुक्त है।

संसाधन उपयोग: 80 करोड़ पैरामीटर और FP8 क्वांटाइजेशन के कारण इसकी मेमोरी आवश्यकता Flux.1-dev का केवल 60% है, जो उपभोक्ता-स्तरीय हार्डवेयर के लिए अधिक उपयुक्त है।

AIbase का मानना है कि Flex.2-preview का प्रदर्शन संतुलन इसे ओपन सोर्स मॉडल में अद्वितीय बनाता है, खासकर उन वर्कफ़्लो के लिए जो उच्च नियंत्रण सटीकता और तेज़ पीढ़ी की आवश्यकता होती है।

समुदाय की प्रतिक्रिया और सुधार की दिशा

Flex.2-preview के जारी होने के बाद, समुदाय ने इसकी लचीली नियंत्रण क्षमता और ओपन सोर्स भावना की अत्यधिक सराहना की है। डेवलपर्स ने इसे "ComfyUI की वर्कफ़्लो क्षमता को चरम पर ले जाने" के रूप में वर्णित किया है, विशेष रूप से कला निर्माण और मरम्मत कार्यों में इसका प्रदर्शन प्रभावशाली है। हालाँकि, कुछ उपयोगकर्ताओं ने प्रतिक्रिया दी है कि जटिल संकेतों की शब्दार्थ समझ में सुधार की गुंजाइश है, और T5 एन्कोडर की संकेत प्रसंस्करण क्षमता को बढ़ाने का सुझाव दिया है। समुदाय Flex.2 द्वारा वीडियो पीढ़ी और व्यापक ControlNet एकीकरण (जैसे मुद्रा अनुमान) का समर्थन करने की भी उम्मीद करता है। ओस्ट्रिस टीम ने जवाब दिया कि अगले संस्करण में मल्टीमॉडल संकेत प्रसंस्करण को अनुकूलित किया जाएगा और गतिशील थ्रेशोल्ड समायोजन पेश किया जाएगा, जिससे पीढ़ी की स्थिरता में और सुधार होगा। AIbase का अनुमान है कि Flex.2 Hailuo Image या Hun Yuan 3D इंजन के नियंत्रण मॉड्यूल के साथ मिलकर एक क्रॉस-मॉडल निर्माण पारिस्थितिकी तंत्र का निर्माण कर सकता है।

भविष्य का दृष्टिकोण: ओपन सोर्स AI कला का निरंतर विकास

Flex.2-preview के जारी होने से ओपन सोर्स AI छवि पीढ़ी के क्षेत्र में ओस्ट्रिस की नवीन क्षमता का पता चलता है। AIbase का मानना है कि Flux.1Schnell से Flex.2 तक के इसके विकास पथ ने समुदाय-संचालित विकास की क्षमता को दिखाया है, खासकर ComfyUI पारिस्थितिकी तंत्र में इसकी एकीकरण क्षमता डेवलपर्स के लिए असीम संभावनाएँ प्रदान करती है। AI-Toolkit के निरंतर पुनरावृत्ति के साथ, Flex.2 माइक्रो-ट्यूनिंग और कस्टमाइज्ड पीढ़ी के लिए एक मानक मॉडल बन सकता है। समुदाय MCP प्रोटोकॉल के साथ इसके एकीकरण पर चर्चा कर रहा है, RunComfy जैसे ऑनलाइन प्लेटफॉर्म के समान एक एकीकृत AI कला वर्कफ़्लो का निर्माण कर रहा है। AIbase 2025 में Flex.2 के आधिकारिक संस्करण के जारी होने की उम्मीद करता है, खासकर बहु-रिज़ॉल्यूशन समर्थन और रीयल-टाइम पीढ़ी में सफलता की।

परियोजना पता: https://huggingface.co/ostris/Flex.2-preview