बाइटडांस ने VINCIE-3B को ओपन सोर्स कर दिया, जो एक 30 करोड़ पैरामीटर मॉडल है जो संदर्भ लगातार छवि संपादन का समर्थन करता है, जो इसके आंतरिक MM-DiT आर्किटेक्चर पर विकसित किया गया है। इस मॉडल ने पारंपरिक छवि संपादन की सीमाओं को तोड़ दिया है, और पहली बार एक अकेले वीडियो डेटा से संदर्भ-जागरूक छवि संपादन क्षमता सीखने में सक्षम हो गया है, बिना जटिल सेगमेंटेशन या ठीक करने वाले मॉडल के बिना ट्रेनिंग डेटा बनाने के लिए। VINCIE-3B के जारी होने से रचनात्मक डिज़ाइन, फिल्म बैक-एंड और सामग्री उत्पादन के क्षेत्र में नई संभावनाएं प्रदान की गई हैं। AIbase इसके तकनीकी उल्लेखनीय बिंदुओं, अनुप्रयोग क्षेत्रों और उद्योग प्रभाव की गहराई से विश्लेषण करता है।

तकनीकी अभियान: वीडियो से संदर्भ संपादन तक
पारंपरिक छवि संपादन मॉडल आमतौर पर विशिष्ट कार्य के डेटा पाइपलाइन पर निर्भर करते हैं, जो ट्रेनिंग डेटा बनाने के लिए विशेषज्ञ मॉडल (जैसे सेगमेंटेशन, ठीक करना) के आवश्यकता होती है, जो लागत में अधिक होती है और प्रक्रिया जटिल होती है। VINCIE-3B ने वीडियो से सीधे सीखने के साथ नवाचार किया, वीडियो को अद्वितीय बहुमाध्यमिक अनुक्रम (टेक्स्ट + छवि) में बदलकर, संदर्भ-जागरूक छवि संपादन की क्षमता हासिल करता है। विशिष्ट तकनीकी उल्लेखनीय बिंदु इस प्रकार हैं:
- वीडियो चालित ट्रेनिंग: VINCIE-3B वीडियो के लगातार फ्रेम का उपयोग करता है, जो स्वचालित रूप से टेक्स्ट वर्णन और छवि अनुक्रम निकालता है, बहुमाध्यमिक ट्रेनिंग डेटा बनाता है। इस विधि से पारंपरिक विधियों के विशेषज्ञ मॉडल पर निर्भरता को दूर कर दिया गया है, जो डेटा तैयार करने की लागत को बहुत कम कर देता है।
- ब्लॉक कारणात्मक डिफ्यूज़न ट्रांसफॉर्मर (Block-Causal Diffusion Transformer): मॉडल ब्लॉक कारणात्मक ध्यान योजना का उपयोग करता है, जो टेक्स्ट और छवि ब्लॉक के बीच कारणात्मक ध्यान प्राप्त करता है, ब्लॉक के भीतर द्विदिश ध्यान होता है। इस डिज़ाइन के कारण जानकारी की दक्षता प्रवाह होती है, और समय अनुक्रम के कारणात्मक संगतता बनी रहती है।
- तीन एजेंट कार्यक्रम ट्रेनिंग: VINCIE-3B अगले फ्रेम पूर्वानुमान, वर्तमान फ्रेम सेगमेंटेशन पूर्वानुमान और अगले फ्रेम सेगमेंटेशन पूर्वानुमान के तीन कार्यक्रमों के साथ ट्रेनिंग करता है, जो डायनामिक स्थिति और वस्तु संबंध के बारे में मॉडल के समझ को बढ़ाता है।
- साफ और शोर की स्थिति के संयोजन: डिफ्यूज़न मॉडल में शोर छवि इनपुट के समस्या के समाधान के लिए, VINCIE-3B साफ और शोर छवि टैग दोनों के साथ इनपुट करता है, ध्यान मास्क का उपयोग करके शोर छवि केवल साफ संदर्भ पर आधारित रूप से शर्त के साथ बनाई जाती है, जो संपादन गुणवत्ता को बढ़ाता है।
प्रदर्शन परीक्षण में, VINCIE-3B KontextBench और नए बहु-चरण छवि संपादन बेंचमार्क में विश्व स्तर पर उत्कृष्ट स्थिति (SOTA) तक पहुंच गया, विशेष रूप से टेक्स्ट अनुपालन, भूमिका संगतता और जटिल स्थिति संपादन (जैसे गतिशील वस्तु गति) पर अच्छा प्रदर्शन किया। एक उच्च गुणवत्ता वाली संपादित छवि बनाने का औसत समय लगभग 4 सेकंड है, जो समान अन्य मॉडल की तुलना में लगभग 8 गुना तेज है।
ओपन सोर्स पारिस्थितिकी: विश्व के विकासकर्ताओं को शक्ति प्रदान करें
VINCIE-3B के पूर्ण कोड, मॉडल वजन और ट्रेनिंग डेटा प्रक्रिया 14 जून 2025 को GitHub और arXiv पर जारी कर दिया गया है, विकासकर्ता अप्लाई करके पूर्ण डेटासेट प्राप्त कर सकते हैं (संपर्क ईमेल: yangsiqian@bilibili.com)। मॉडल बाइटडांस के MM-DiT (3B और 7B पैरामीटर संस्करण) पर शुरू किया गया है, एपैच 2.0 लाइसेंस के साथ, गैर-वाणिज्यिक उपयोग के लिए समर्थित है, वाणिज्यिक उपयोग के लिए बाइटडांस से अनुमति प्राप्त करने की आवश्यकता होती है।
बाइटडांस ने एक बहु-चरण छवि संपादन बेंचमार्क भी लॉन्च किया, जिसमें वास्तविक स्थिति उदाहरण शामिल हैं, जो समुदाय को मॉडल के प्रदर्शन की जांच और अनुकूलन के लिए प्रोत्साहित करता है। सोशल मीडिया पर, विकासकर्ताओं ने VINCIE-3B के ओपन सोर्स का गर्मजोशी से स्वागत किया, जो कहते हैं कि "वीडियो से सीखने" की विधि कम लागत वाले AI सामग्री निर्माण के लिए एक नई राह खोलती है।
अनुप्रयोग क्षेत्र: रचनात्मकता और उत्पादकता के लिए द्विलाभ
VINCIE-3B टेक्स्ट और पूर्व छवि पर आधारित लगातार संपादन का समर्थन करता है, जो विभिन्न स्थितियों के लिए उपयुक्त है:
- फिल्म बैक-एंड: वीडियो फ्रेम से भूमिका या वस्तु को निकालें, विभिन्न स्थितियों के अनुकूल संपादित करें, जैसे कि भूमिका को घर से बाहर ले जाएं, प्रकाश और दृश्य एक समान रखें।
- ब्रांडिंग बाजार: उत्पाद या लोगो को विभिन्न पृष्ठभूमि (जैसे कॉफी शॉप, बाहरी विज्ञापन बोर्ड) में रखें, स्वचालित रूप से प्रकाश, छाया और दृश्य को समायोजित करें, विभिन्न स्थिति वाले बाजार सामग्री बनाने की प्रक्रिया को सरल करें।
- खेल और एनीमेशन: टेक्स्ट निर्देशों के माध्यम से भूमिका गति या स्थिति तत्वों को समायोजित करें, जो तेज़ प्रोटोटाइप डिज़ाइन और एनीमेशन पूर्वावलोकन के लिए समर्थन करता है।
- सामाजिक मीडिया सामग्री