अलीबाबा के वैन टीम ने आधिकारिक रूप से वैन 2.2-एनिमेट-14बी (जिसे वैन-एनिमेट के रूप में जाना जाता है) मॉडल को ओपन सोर्स कर दिया है, जो एआई वीडियो क्षेत्र में ध्यान केंद्रित हो गया है। यह उच्च परिशुद्धता वाला भूमिका एनिमेशन जनरेशन फ्रेमवर्क एकल मॉडल आर्किटेक्चर के साथ "भूमिका एनिमेशन जनरेशन" और "भूमिका प्रतिस्थापन" दोनों समस्याओं को एक साथ हल करता है, उपयोगकर्ता को एक छवि या वीडियो अपलोड करने की अनुमति देता है, जो भावना और कार्य के सटीक प्रसार और वातावरण संगतता की अनुमति देता है, जो वीडियो निर्माण के प्रवेश के बारे में बहुत कम करता है। मॉडल के वेट और अनुमान कोड हगिंग फेस प्लेटफॉर्म पर अपलोड किया गया है, जो वैश्विक डेवलपर्स के लिए मुफ्त उपयोग के लिए है।
मुख्य क्षमताएं: दो कार्य एक क्लिक में
वैन-एनिमेट का मुख्य आकर्षण इसके एकीकृत फ्रेमवर्क डिज़ाइन है, जहां उपयोगकर्ता को केवल एक भूमिका छवि (जैसे स्थिर चित्र या कार्टून चित्र) और एक रेफरेंस वीडियो प्रदान करना होता है, जिससे उच्च अक्षरता वाला एनिमेशन वीडियो बनता है। मॉडल रेफरेंस वीडियो में चेहरे के भाव, शरीर के गति या जटिल नृत्य अनुक्रम की बराबर नकल करता है, जबकि भूमिका के मूल लक्षण बनाए रखता है, अस्पष्टता या विकृति समस्याओं से बचता है।
भूमिका एनिमेशन जनरेशन मोड में, यह लिप सिंक के साथ विशेष रूप से अच्छा है, जो स्थिर छवि को गतिशील प्रदर्शन में बदल सकता है, उदाहरण के लिए, एनिमेशन कलाकार को बोलते हुए वीडियो के साथ अनुकूलित कर सकता है, आउटपुट वीडियो निरंतर और प्राकृतिक होता है, विभिन्न भाषाओं और बोलने के ढंग के अनुकूल होता है।
भूमिका प्रतिस्थापन क्षमता अधिक नवाचार है: मॉडल मूल वीडियो में व्यक्ति को नए भूमिका में बिना किसी अंतर के बदल सकता है, जबकि मूल स्थान के प्रकाश, रंग और पृष्ठभूमि के साथ स्वचालित रूप से मेल खाता है, जिससे दृश्य संगतता सुनिश्चित होती है। इसका मतलब है कि उपयोगकर्ता बिना पूर्ण कथानक के बिगड़े बिना आसानी से "चेहरा बदल सकते हैं", उदाहरण के लिए, छोटी फिल्मों या विज्ञापनों में तेजी से अभिनेताओं के बदलाव के लिए।
तकनीकी उल्लेखनीय बिंदु: बहुमाध्यमी संयोजन द्वारा चालित
वैन 2.2 श्रृंखला तकनीक पर आधारित, यह मॉडल अस्थायी संकेत नियंत्रण शरीर गति, चेहरे के अस्पष्ट विशेषता निकालने और रिलाइटिंग लोरा मॉड्यूल वातावरण प्रकाश को अनुकूलित करता है। पारंपरिक उपकरणों की तुलना में, यह लिप सिंक सटीकता और सम्पूर्ण गति पुनर्निर्माण में उत्कृष्ट प्रदर्शन करता है, शुरूआती परीक्षण दर्शाता है कि भले ही निम्न गुणवत्ता इनपुट हो, आउटपुट पेशेवर स्तर के रूप में रहता है। ओपन सोर्स समुदाय के फीडबैक के अनुसार, इसकी कम्फी यूआई आदि फ्रेमवर्क में एकीकरण की संभावना बहुत बड़ी है, विकासकर्ता अब वीट्यूबर निर्माण या स्वतंत्र फिल्म एनिमेशन के लिए स्वयं के कार्य प्रवाह बनाना शुरू कर चुके हैं।
अनुप्रयोग संभावना: मनोरंजन से व्यावसायिक तक असीमित संभावनाएं
वैन-एनिमेट के ओपन सोर्स जारी करने को एआई वीडियो जनरेशन के "खेल के बदलाव" के रूप में देखा गया है। मनोरंजन क्षेत्र में, यह संगीत वीडियो (एमवी) या संक्षिप्त वीडियो निर्माताओं की सहायता कर सकता है, एक चित्र के साथ पूर्ण नृत्य प्रदर्शन बना सकता है; व्यावसायिक परिस्थितियों में, जैसे ई-कॉमर्स विज्ञापन या कंपनी प्रशिक्षण, उपयोगकर्ता एक व्यक्ति के द्वारा कई भूमिकाओं का निष्पादन कर सकते हैं, उच्च लागत वाले शूटिंग की बचत कर सकते हैं। भविष्य में, समुदाय द्वारा अनुकूलन के साथ, मॉडल बहुत भूमिका वाले वीडियो समर्थन में विस्तार कर सकता है, एआई के फिल्म उद्योग में लागू करने में आगे बढ़ सकता है।
हालांकि, शुरूआती उपयोगकर्ता इंगित करते हैं कि शुरूआती संस्करण में वीआरएम की आवश्यकता (14बी पैरामीटर के लिए उच्च-विशिष्ट जीपीयू की आवश्यकता होती है) और कुछ अंतिम स्थितियों (जैसे 2डी एनिमेशन लिप सिंक) में अभी भी अनुकूलन के लिए स्थान है, अगले छह महीने में एक अधिक परिपक्व संस्करण अपडेट कर दिया जाएगा।
परियोजना एड्रेस: https://github.com/Wan-Video/Wan2.2