अलीबाबा ने हाल ही में घोषणा की है कि उसका नवीनतम फ्रेम-टू-फ्रेम वीडियो जेनरेटिंग मॉडल Wan2.1-FLF2V-14B आधिकारिक तौर पर ओपन सोर्स हो गया है, जो 5 सेकंड का 720p उच्च-परिभाषा वीडियो जेनरेट कर सकता है। इस मॉडल ने अपनी नवीन फ्रेम नियंत्रण तकनीक से व्यापक ध्यान आकर्षित किया है, जिससे AI वीडियो जेनरेशन के क्षेत्र में नई संभावनाएँ खुल गई हैं। AIbase के अनुसार, यह मॉडल फरवरी 2025 में GitHub और Hugging Face प्लेटफॉर्म पर लॉन्च किया गया था, और वैश्विक डेवलपर्स, शोधकर्ताओं और व्यावसायिक संस्थानों के लिए मुफ्त में उपलब्ध है, जो अलीबाबा द्वारा ओपन सोर्स AI पारिस्थितिकी तंत्र के निर्माण में एक और महत्वपूर्ण मील का पत्थर है।
मुख्य कार्य: शुरुआती और अंतिम फ्रेम से नियंत्रित, सुचारू उच्च-परिभाषा वीडियो जेनरेट करना
Wan2.1-FLF2V-14B शुरुआती और अंतिम फ्रेम को नियंत्रण की शर्त के रूप में उपयोग करता है। उपयोगकर्ता को केवल दो चित्र प्रदान करने की आवश्यकता होती है, और मॉडल स्वचालित रूप से 5 सेकंड का 720p रिज़ॉल्यूशन वाला वीडियो जेनरेट कर सकता है। AIbase ने देखा है कि जेनरेट किया गया वीडियो गति में बहुत सुचारू है और शुरुआती और अंतिम फ्रेम के बीच संक्रमण उत्कृष्ट है, छवि विवरण उच्च-वफादारी से संदर्भ छवि को पुनर्स्थापित करते हैं, और समग्र सामग्री स्थिरता में काफी सुधार हुआ है। पारंपरिक वीडियो जेनरेटिंग मॉडल की तुलना में, यह मॉडल सटीक स्थितीय नियंत्रण के माध्यम से लंबी वीडियो जेनरेशन में सामान्य स्क्रीन झटके और सामग्री विचलन की समस्याओं को हल करता है, उच्च-गुणवत्ता वाले वीडियो निर्माण के लिए एक कुशल समाधान प्रदान करता है।
तकनीकी विशेषताएँ: CLIP और DiT का संयोजन जेनरेशन स्थिरता को बढ़ाता है
AIbase के विश्लेषण के अनुसार, Wan2.1-FLF2V-14B उन्नत शुरुआती और अंतिम फ्रेम स्थितीय नियंत्रण तकनीक का उपयोग करता है, जिसका मुख्य भाग निम्नलिखित नवाचारों में निहित है:
CLIP सिमेंटिक फीचर एक्सट्रैक्शन: CLIP मॉडल का उपयोग शुरुआती और अंतिम फ्रेम की सिमेंटिक जानकारी निकालने के लिए किया जाता है, यह सुनिश्चित करने के लिए कि जेनरेट किया गया वीडियो दृश्य सामग्री में इनपुट छवि के साथ उच्च स्तर की स्थिरता बनाए रखता है।
क्रॉस-अटेंशन मैकेनिज्म: शुरुआती और अंतिम फ्रेम की विशेषताओं को डिफ्यूजन ट्रांसफार्मर (DiT) की जेनरेटिंग प्रक्रिया में इंजेक्ट किया जाता है, जिससे छवि की स्थिरता और समय श्रृंखला की निरंतरता में वृद्धि होती है।
डेटा-संचालित प्रशिक्षण: मॉडल को 150 मिलियन वीडियो और 1 बिलियन छवियों के विशाल डेटासेट पर प्रशिक्षित किया गया है, जो वास्तविक भौतिक नियमों के अनुरूप गतिशील सामग्री जेनरेट कर सकता है।
इन तकनीकों के संयोजन से Wan2.1-FLF2V-14B जटिल गति वाले दृश्यों को जेनरेट करने में उत्कृष्ट प्रदर्शन करता है, विशेष रूप से उच्च-वफादारी संक्रमण की आवश्यकता वाले रचनात्मक अनुप्रयोग परिदृश्यों के लिए उपयुक्त है।
व्यापक अनुप्रयोग: सामग्री निर्माण और अनुसंधान को सशक्त बनाना
Wan2.1-FLF2V-14B के ओपन सोर्स होने से कई क्षेत्रों में व्यापक अनुप्रयोग संभावनाएँ खुल गई हैं। AIbase ने इसके मुख्य अनुप्रयोग परिदृश्यों को संक्षेपित किया है:
फिल्म और विज्ञापन: उच्च-गुणवत्ता वाले संक्रमण वीडियो जेनरेट करना, बाद के उत्पादन की लागत को कम करना।
गेम डेवलपमेंट: गेम दृश्यों के लिए गतिशील संक्रमण एनिमेशन जेनरेट करना, विकास दक्षता में सुधार करना।
शिक्षा और अनुसंधान: शोधकर्ताओं को वीडियो जेनरेटिंग तकनीक का पता लगाने और नए AI अनुप्रयोगों को विकसित करने में मदद करना।
व्यक्तिगत निर्माण: साधारण उपयोगकर्ता सरल इनपुट के माध्यम से व्यक्तिगत लघु वीडियो जेनरेट कर सकते हैं, सोशल मीडिया सामग्री को समृद्ध कर सकते हैं।
यह उल्लेखनीय है कि मॉडल चीनी प्रॉम्प्ट जेनरेशन का समर्थन करता है, विशेष रूप से चीनी परिदृश्यों को संभालते समय बेहतर प्रदर्शन करता है, जो बहुभाषी वातावरण के लिए इसकी अनुकूलन क्षमता को दर्शाता है।
प्रारंभिक बाधा: उपभोक्ता-स्तरीय हार्डवेयर के साथ संगत
Wan2.1-FLF2V-14B ने हार्डवेयर आवश्यकताओं के मामले में उच्च व्यापकता दिखाई है। AIbase को पता चला है कि यद्यपि इसके 1.4 बिलियन पैरामीटर का आकार काफी बड़ा है, लेकिन अनुकूलन के माध्यम से, मॉडल RTX4090 जैसे उपभोक्ता-स्तरीय GPU वाले उपकरणों पर चलाया जा सकता है, जिसकी मेमोरी आवश्यकता केवल 8.19GB है। 5 सेकंड के 480p वीडियो को जेनरेट करने में लगभग 4 मिनट का समय लगता है, और 720p वीडियो का जेनरेशन समय भी उचित सीमा के भीतर रहता है। इसके अलावा, मॉडल विस्तृत परिनियोजन मार्गदर्शन प्रदान करता है, उपयोगकर्ता निम्नलिखित आदेशों के माध्यम से जल्दी से प्रारंभ कर सकते हैं:
python
python generate.py --task flf2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-FLF2V-14B --first_frame examples/first.jpg --last_frame examples/last.jpg --prompt "A smooth transition from a sunny beach to a starry night"
ओपन सोर्स समुदाय ने Gradio-आधारित वेब UI भी प्रदान किया है, जिससे गैर-तकनीकी उपयोगकर्ताओं के लिए प्रारंभ करना और भी आसान हो गया है।
समुदाय प्रतिक्रिया और भविष्य के दृष्टिकोण
लॉन्च होने के बाद से, Wan2.1-FLF2V-14B ने ओपन सोर्स समुदाय में गर्मजोशी से प्रतिक्रिया प्राप्त की है। डेवलपर्स ने इसकी जेनरेशन गुणवत्ता, हार्डवेयर मित्रता और ओपन सोर्स रणनीति की अत्यधिक सराहना की है। AIbase ने देखा है कि समुदाय ने मॉडल के आधार पर द्वितीयक विकास शुरू कर दिया है, अधिक जटिल वीडियो संपादन कार्यों का पता लगा रहा है, जैसे गतिशील उपशीर्षक जेनरेशन और बहुभाषी डबिंग। भविष्य में, अलीबाबा मॉडल को और अधिक अनुकूलित करने की योजना बना रहा है, उच्च रिज़ॉल्यूशन (जैसे 8K) और लंबी अवधि के वीडियो जेनरेशन का समर्थन करेगा, साथ ही वीडियो-टू-ऑडियो (V2A) जैसे क्षेत्रों में इसके अनुप्रयोगों का विस्तार करेगा।
प्रोजेक्ट पता: https://github.com/Wan-Video/Wan2.1