19 सितंबर 2025 को, अलीबेबा क्लाउड ने घोषणा की कि टॉंगयी वैनसैंग के नए कार्य जनरेशन मॉडल वैन 2.2-एनिमेट को आधिकारिक रूप से ओपन सोर्स कर दिया गया है। इस मॉडल के द्वारा मनुष्य, कार्टून पात्र और जानवरों की छवियों को चलाया जा सकता है, जो संक्षिप्त वीडियो बनाने, डांस पैटर्न जनरेशन, कार्टून बनाने आदि क्षेत्रों में व्यापक रूप से उपयोग किया जाता है। उपयोगकर्ता गिटहब, हफिंगफेस और मोडा समुदाय से मॉडल और कोड डाउनलोड कर सकते हैं, या अलीबेबा क्लाउड बैलन प्लेटफॉर्म के माध्यम से API का उपयोग कर सकते हैं या टॉंगयी वैनसैंग की आधिकारिक वेबसाइट पर सीधे परीक्षण कर सकते हैं।
वैन 2.2-एनिमेट मॉडल पहले ओपन सोर्स किए गए एनिमेट एनीवन मॉडल पर आधारित है और इसका पूर्ण अपग्रेड किया गया है, जिसमें मानव संगतता और जनरेशन गुणवत्ता जैसे सूचकांकों में भारी वृद्धि हुई है, इसके साथ ही कार्य अनुकरण और पात्र खेलने के दो मोड समर्थित हैं। पात्र अनुकरण मोड में, एक पात्र की छवि और एक संदर्भ वीडियो के एक साथ इनपुट दिया जाता है, जिसके द्वारा मॉडल वीडियो पात्र के कार्य और भावना को छवि पात्र में स्थानांतरित कर सकता है, जिससे छवि पात्र को गतिशील प्रदर्शन क्षमता प्राप्त होती है। जबकि पात्र खेलने मोड में, मॉडल मूल वीडियो के कार्य, भावना और वातावरण को बरकरार रखते हुए, वीडियो में पात्र को छवि में पात्र से बदल सकता है।
टॉंगयी वैनसैंग टीम ने बोलने, चेहरे के भाव और शरीर के गतिविधियों के एक बड़े पैमाने पर व्यक्ति वीडियो डेटा सेट का निर्माण किया है, और इसके बाद टॉंगयी वैनसैंग चित्र से वीडियो मॉडल पर प्रशिक्षण किया गया है। वैन 2.2-एनिमेट पात्र की जानकारी, वातावरण की जानकारी और कार्य के सभी नियमों को एक एकीकृत प्रारूप में व्यवस्थित करता है, जिससे एक मॉडल के माध्यम से दोनों रीजनिंग मोड के साथ अनुकूलन संभव हो जाता है। शरीर के गतिविधि और चेहरे के भाव के लिए, मॉडल क्रमशः हड्डी संकेत और अंतर्निहित विशेषताओं का उपयोग करता है, कार्य रीडायरेक्शन मॉड्यूल के साथ, कार्य और भाव के ठीक से प्रतिकृति को सुनिश्चित करता है। बदलाव मोड में, टीम ने एक स्वतंत्र प्रकाश संगति LoRA डिज़ाइन किया है, जिसका उपयोग पूर्ण प्रकाश संगति प्रभाव सुनिश्चित करने के लिए किया जाता है।
परीक्षण परिणामों के अनुसार, वैन 2.2-एनिमेट वीडियो जनरेशन गुणवत्ता, मुख्य संगतता और अंतर्निहित हानि आदि कुंजी सूचकांकों में स्टेबलएनिमेटर, लिवपोर्ट्रेट आदि ओपन सोर्स मॉडल से आगे निकल गया है, जो वर्तमान में सबसे शक्तिशाली कार्य जनरेशन मॉडल बन गया है। मानव व्यक्तिगत मूल्यांकन में, वैन 2.2-एनिमेट रनवे एक्ट-टू के साथ-साथ बंद सोर्स मॉडल के ऊपर भी आगे निकल गया है।
गिटहब:https://github.com/Wan-Video/Wan2.2
मोडा समुदाय:https://modelscope.cn/models/Wan-AI/Wan2.2-Animate-14B
हफिंगफेस:https://huggingface.co/Wan-AI/Wan2.2-Animate-14B