बाइटडांस नए मॉडल VINCIE-3B के खुले स्रोत: 3 करोड़ पैरामीटर संचालन लगातार छवि संपादन का समर्थन करता है

AIbase基地

द्वारा प्रकाशितAI समाचार · 8 मिनट पढ़ें · Jul 3, 2025

26

बाइटडांस ने VINCIE-3B को ओपन सोर्स कर दिया, जो एक 30 करोड़ पैरामीटर मॉडल है जो संदर्भ लगातार छवि संपादन का समर्थन करता है, जो इसके आंतरिक MM-DiT आर्किटेक्चर पर विकसित किया गया है। इस मॉडल ने पारंपरिक छवि संपादन की सीमाओं को तोड़ दिया है, और पहली बार एक अकेले वीडियो डेटा से संदर्भ-जागरूक छवि संपादन क्षमता सीखने में सक्षम हो गया है, बिना जटिल सेगमेंटेशन या ठीक करने वाले मॉडल के बिना ट्रेनिंग डेटा बनाने के लिए। VINCIE-3B के जारी होने से रचनात्मक डिज़ाइन, फिल्म बैक-एंड और सामग्री उत्पादन के क्षेत्र में नई संभावनाएं प्रदान की गई हैं। AIbase इसके तकनीकी उल्लेखनीय बिंदुओं, अनुप्रयोग क्षेत्रों और उद्योग प्रभाव की गहराई से विश्लेषण करता है।

तकनीकी अभियान: वीडियो से संदर्भ संपादन तक

पारंपरिक छवि संपादन मॉडल आमतौर पर विशिष्ट कार्य के डेटा पाइपलाइन पर निर्भर करते हैं, जो ट्रेनिंग डेटा बनाने के लिए विशेषज्ञ मॉडल (जैसे सेगमेंटेशन, ठीक करना) के आवश्यकता होती है, जो लागत में अधिक होती है और प्रक्रिया जटिल होती है। VINCIE-3B ने वीडियो से सीधे सीखने के साथ नवाचार किया, वीडियो को अद्वितीय बहुमाध्यमिक अनुक्रम (टेक्स्ट + छवि) में बदलकर, संदर्भ-जागरूक छवि संपादन की क्षमता हासिल करता है। विशिष्ट तकनीकी उल्लेखनीय बिंदु इस प्रकार हैं:

वीडियो चालित ट्रेनिंग: VINCIE-3B वीडियो के लगातार फ्रेम का उपयोग करता है, जो स्वचालित रूप से टेक्स्ट वर्णन और छवि अनुक्रम निकालता है, बहुमाध्यमिक ट्रेनिंग डेटा बनाता है। इस विधि से पारंपरिक विधियों के विशेषज्ञ मॉडल पर निर्भरता को दूर कर दिया गया है, जो डेटा तैयार करने की लागत को बहुत कम कर देता है।
ब्लॉक कारणात्मक डिफ्यूज़न ट्रांसफॉर्मर (Block-Causal Diffusion Transformer): मॉडल ब्लॉक कारणात्मक ध्यान योजना का उपयोग करता है, जो टेक्स्ट और छवि ब्लॉक के बीच कारणात्मक ध्यान प्राप्त करता है, ब्लॉक के भीतर द्विदिश ध्यान होता है। इस डिज़ाइन के कारण जानकारी की दक्षता प्रवाह होती है, और समय अनुक्रम के कारणात्मक संगतता बनी रहती है।
तीन एजेंट कार्यक्रम ट्रेनिंग: VINCIE-3B अगले फ्रेम पूर्वानुमान, वर्तमान फ्रेम सेगमेंटेशन पूर्वानुमान और अगले फ्रेम सेगमेंटेशन पूर्वानुमान के तीन कार्यक्रमों के साथ ट्रेनिंग करता है, जो डायनामिक स्थिति और वस्तु संबंध के बारे में मॉडल के समझ को बढ़ाता है।
साफ और शोर की स्थिति के संयोजन: डिफ्यूज़न मॉडल में शोर छवि इनपुट के समस्या के समाधान के लिए, VINCIE-3B साफ और शोर छवि टैग दोनों के साथ इनपुट करता है, ध्यान मास्क का उपयोग करके शोर छवि केवल साफ संदर्भ पर आधारित रूप से शर्त के साथ बनाई जाती है, जो संपादन गुणवत्ता को बढ़ाता है।

प्रदर्शन परीक्षण में, VINCIE-3B KontextBench और नए बहु-चरण छवि संपादन बेंचमार्क में विश्व स्तर पर उत्कृष्ट स्थिति (SOTA) तक पहुंच गया, विशेष रूप से टेक्स्ट अनुपालन, भूमिका संगतता और जटिल स्थिति संपादन (जैसे गतिशील वस्तु गति) पर अच्छा प्रदर्शन किया। एक उच्च गुणवत्ता वाली संपादित छवि बनाने का औसत समय लगभग 4 सेकंड है, जो समान अन्य मॉडल की तुलना में लगभग 8 गुना तेज है।

ओपन सोर्स पारिस्थितिकी: विश्व के विकासकर्ताओं को शक्ति प्रदान करें

VINCIE-3B के पूर्ण कोड, मॉडल वजन और ट्रेनिंग डेटा प्रक्रिया 14 जून 2025 को GitHub और arXiv पर जारी कर दिया गया है, विकासकर्ता अप्लाई करके पूर्ण डेटासेट प्राप्त कर सकते हैं (संपर्क ईमेल: yangsiqian@bilibili.com)। मॉडल बाइटडांस के MM-DiT (3B और 7B पैरामीटर संस्करण) पर शुरू किया गया है, एपैच 2.0 लाइसेंस के साथ, गैर-वाणिज्यिक उपयोग के लिए समर्थित है, वाणिज्यिक उपयोग के लिए बाइटडांस से अनुमति प्राप्त करने की आवश्यकता होती है।

बाइटडांस ने एक बहु-चरण छवि संपादन बेंचमार्क भी लॉन्च किया, जिसमें वास्तविक स्थिति उदाहरण शामिल हैं, जो समुदाय को मॉडल के प्रदर्शन की जांच और अनुकूलन के लिए प्रोत्साहित करता है। सोशल मीडिया पर, विकासकर्ताओं ने VINCIE-3B के ओपन सोर्स का गर्मजोशी से स्वागत किया, जो कहते हैं कि "वीडियो से सीखने" की विधि कम लागत वाले AI सामग्री निर्माण के लिए एक नई राह खोलती है।

अनुप्रयोग क्षेत्र: रचनात्मकता और उत्पादकता के लिए द्विलाभ

VINCIE-3B टेक्स्ट और पूर्व छवि पर आधारित लगातार संपादन का समर्थन करता है, जो विभिन्न स्थितियों के लिए उपयुक्त है:

फिल्म बैक-एंड: वीडियो फ्रेम से भूमिका या वस्तु को निकालें, विभिन्न स्थितियों के अनुकूल संपादित करें, जैसे कि भूमिका को घर से बाहर ले जाएं, प्रकाश और दृश्य एक समान रखें।
ब्रांडिंग बाजार: उत्पाद या लोगो को विभिन्न पृष्ठभूमि (जैसे कॉफी शॉप, बाहरी विज्ञापन बोर्ड) में रखें, स्वचालित रूप से प्रकाश, छाया और दृश्य को समायोजित करें, विभिन्न स्थिति वाले बाजार सामग्री बनाने की प्रक्रिया को सरल करें।
खेल और एनीमेशन: टेक्स्ट निर्देशों के माध्यम से भूमिका गति या स्थिति तत्वों को समायोजित करें, जो तेज़ प्रोटोटाइप डिज़ाइन और एनीमेशन पूर्वावलोकन के लिए समर्थन करता है।
सामाजिक मीडिया सामग्री

यह लेख AIbase दैनिक से है

【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।

—— AIbase दैनिक समूह द्वारा बनाया गया

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

GEO Brand Visibility

AI Visibility Audit

AI Search Visibility Checker

GEO Ranking Monitor

AI Conversation Insight

GEO Promotion Link Detection

Website AI Friendliness Detection

GEO Ranking Optimization System

GEO Ranking Optimization

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

LLM API Hub

AI Models Finder

Model Providers

LLM Leaderboard

LLM API Proxy Checker

Compare LLMs

LLM Cost Calculator

LLM Arena