जुलाई 2025 में, बिलीबिली (B站) ने अपने ओपन सोर्स एनीमेशन वीडियो जनरेटिंग मॉडल AniSora के महत्वपूर्ण अपडेट की घोषणा की, जिसका आधिकारिक रूप से AniSora V3 के रूप में उद्घाटन किया गया। Index-AniSora परियोजना के हिस्से के रूप में, V3 संस्करण मूल मॉडल पर आधारित होकर जनरेटेड गुणवत्ता, गति के समायोजन और शैली के विविधता में सुधार किया गया, जो एनीमेशन, कॉमिक और VTuber सामग्री निर्माताओं के लिए एक शक्तिशाली उपकरण प्रदान करता है। AIbase AniSora V3 के तकनीकी अप्रगति, अनुप्रयोग और उद्योग प्रभाव के बारे में गहराई से समझाता है।
तकनीकी अपग्रेड: अधिक गुणवत्ता और सटीक नियंत्रण
AniSora V3 Bilibili के पहले ओपन सोर्स CogVideoX-5B और Wan2.1-14B मॉडल पर आधारित है, प्रबलित अधिगम और मानव प्रतिक्रिया (RLHF) फ्रेमवर्क के साथ जुड़ा हुआ है, जो जनरेट किए गए वीडियो की दृश्य गुणवत्ता और गति संगतता में महत्वपूर्ण सुधार करता है। इसके अलावा, इसके द्वारा विभिन्न शैलियों के एनीमेशन वीडियो चैस एक क्लिक में जनरेट किए जा सकते हैं, जैसे कि एनीमेशन खंड, राष्ट्रीय रचनात्मक एनीमेशन, कॉमिक वीडियो अनुकूलन, VTuber सामग्री आदि।
मुख्य अपग्रेड निम्नलिखित हैं:
- स्पेसियोटेम्पोरल मास्क मॉड्यूल (Spatiotemporal Mask Module) अपग्रेड: V3 संस्करण स्पेसियोटेम्पोरल नियंत्रण क्षमता में सुधार करता है, जो जटिल एनीमेशन कार्यों का समर्थन करता है, जैसे कि विस्तृत भाव नियंत्रण, गतिशील कैमरा गति और स्थानीय छवि दिशा जनरेशन। उदाहरण के लिए, "पांच लड़कियां कैमरा बढ़ाए जाने पर नृत्य करती हैं, बाईं ओर के हाथ को ऊपर ले जाएं और फिर घुटने तक नीचे ले जाएं" के अनुरोध के साथ एक चिकना नृत्य एनीमेशन जनरेट किया जा सकता है, जहां कैमरा और चरित्र गति स्वाभाविक रूप से समायोजित होती है।
- डेटा सेट विस्तार: V3 लगभग 10 मिलियन उच्च गुणवत्ता एनीमेशन वीडियो खंडों पर आधारित है (1 मिलियन मूल वीडियो से निकाले गए), जिसके साथ नई डेटा साफ करने की प्रक्रिया शामिल है, जो जनरेट किए गए सामग्री की शैली संगतता और विवरण के समृद्धता को सुनिश्चित करती है।
- हार्डवेयर अपग्रेड: V3 में हुआवे Ascend910B NPU के मूल समर्थन के साथ जोड़ा गया है, जो पूरी तरह से राष्ट्रीय चिप पर शिक्षा देता है, जिसके कारण गणना गति लगभग 20% बढ़ गई है, जिसके लिए 4 सेकंड के उच्च गुणवत्ता वीडियो के जनरेशन के लिए केवल 2-3 मिनट लगते हैं।
- बहुकार्य अधिगम: V3 बहुकार्य प्रबंधन क्षमता में मजबूती करता है, जो एक फ्रेम छवि से वीडियो जनरेशन, की फ्रेम इंटरपोलेशन तक ओठ सिंक्रनाइजेशन के कार्य को समर्थित करता है, जो कॉमिक अनुकूलन और VTuber सामग्री निर्माण के लिए विशेष रूप से उपयुक्त है।
नवीनतम मानक परीक्षण में, AniSora V3 VBench और द्विगुण सब्जेक्टिव परीक्षण में, किरदार संगतता और गति समायोजन में उद्योग के शीर्ष स्तर पर पहुंच गया है (SOTA), विशेष रूप से जटिल गति (जैसे, भौतिकी के नियमों के विरुद्ध अत्यधिक एनीमेशन गति) में विशेष रूप से उत्कृष्ट प्रदर्शन किया है।
ओपन सोर्स पारिस्थितिकी: समुदाय चालित और पारदर्शी विकास
AniSora V3 के पूर्ण शिक्षण और अनुमान बाद कोड 2025 के 2 जुलाई को GitHub पर अपडेट कर दिया गया है, जिसके माध्यम से विकासकर्ता Hugging Face से मॉडल भार और 948 एनीमेशन वीडियो के मूल्यांकन डेटा सेट के पहुंच के माध्यम से पहुंच सकते हैं। Bilibili ने घोषणा की है कि AniSora "एनीमेशन दुनिया के लिए ओपन सोर्स उपहार है", जो समुदाय सहयोग के माध्यम से मॉडल के अनुकूलन के लिए प्रोत्साहित करता है। उपयोगकर्ता को V2.0 भार और पूर्ण डेटा सेट तक पहुंच प्राप्त करने के लिए आवेदन पत्र भरकर निर्दिष्ट ईमेल (जैसे, yangsiqian@bilibili.com) पर भेजना होता है।
V3 में एनीमेशन वीडियो जनरेशन के लिए पहली बार RLHF फ्रेमवर्क शामिल किया गया है, जिसके माध्यम से AnimeReward और GAPO जैसे उपकरणों के माध्यम से मॉडल के अनुकूलन किया गया है, जो निर्गम को मानव अत्याधुनिकता और एनीमेशन शैली की आवश्यकता के अनुरूप बनाता है। समुदाय विकासकर्ता V3 के आधार पर कस्टम ऐप्स विकसित करना शुरू कर दिया है, जैसे कि विशिष्ट एनीमेशन शैली (जैसे, गिब्ली शैली) के उत्पादन के प्रभाव को बढ़ाना।
अनुप्रयोग: रचनात्मकता से व्यावसायिकता तक
AniSora V3 विभिन्न एनीमेशन शैलियों के समर्थन के साथ, जैसे कि जापानी एनीमेशन, राष्ट्रीय रचनात्मक एनीमेशन, कॉमिक अनुकूलन, VTuber सामग्री और मजेदार एनीमेशन (घूमता एनीमेशन) जो 90% एनीमेशन वीडियो अनुप्रयोग स्थिति को कवर करता है। विशिष्ट अनुप्रयोग निम्नलिखित हैं:
- एक छवि से वीडियो: उपयोगकर्ता एक उच्च गुणवत्ता एनीमेशन छवि अपलोड करता है, जिसके साथ पाठ टिप्पणी (जैसे, "चरित्र आगे बढ़ती हुई गाड़ी में हाथ हिलाता है, बाल वायु के साथ झूलते हैं") के साथ, एक गतिशील वीडियो जनरेट किया जा सकता है, जो चरित्र विवरण और शैली की संगतता को बनाए रखता है।
- कॉमिक अनुकूलन