चीन विज्ञान एवं प्रौद्योगिकी विश्वविद्यालय और बाइटडैक एक महत्वपूर्ण कदम के साथ एक अंत-से-अंत लंबे वीडियो जनरेशन मॉडल लॉन्च करने जा रहे हैं। यह मॉडल एक उच्च गुणवत्ता वाला वीडियो 1 मिनट लंबा, 480p रिज़ॉल्यूशन, 24 फ्रेम/सेकंड (fps) तक सीधे जनरेट कर सकता है, और बहु-स्पॉट स्थिति परिवर्तन का समर्थन करता है, जो घटना-आधारित AI प्रतिस्पर्धा में घरेलू वीडियो जनरेशन प्रौद्योगिकी के महत्वपूर्ण अप्रूवल को चिह्नित करता है।
इस परिणाम के मुख्य नवाचार इसके आंतरिक एल्गोरिथ्म - MoGA (Modular Global Attention) है, जो एक नई ध्यान योग्य तकनीक है, जो लंबे वीडियो जनरेशन में संदर्भ विस्तार और गणना खर्च के समस्याओं के लिए विशेष रूप से डिज़ाइन किया गया है। MoGA के संरचना अनुकूलन के कारण, मॉडल 580K token के संदर्भ सूचना को संसाधित कर सकता है, गणना लागत में महत्वपूर्ण कमी लाता है, जो लंबे समय तक, बहु-स्थान वाले वीडियो जनरेशन की अनुमति देता है।
अनुसंधान टीम ने कहा कि पारंपरिक वीडियो जनरेशन मॉडल आमतौर पर ग्राफिक्स मेमोरी और गणना क्षमता के कारण केवल कुछ सेकंड के एनिमेशन GIF या छोटे फिल्म जनरेट कर सकते हैं। लेकिन MoGA के आगमन के कारण, मॉडल "एक ही बार" में बहु-स्पॉट स्थिति परिवर्तन वाले, दृश्य वर्णन में संतति वाले "मिनी फिल्म" को जनरेट कर सकता है, जो जनरेशन आधारित वीडियो मॉडल के अनुप्रयोग सीमा को बहुत अधिक विस्तार करता है।
इसके अतिरिक्त, MoGA एक उच्च स्तर पर मॉड्यूलर और संगत है, जो वर्तमान में उपलब्ध उच्च दक्षता त्वरण प per के साथ (जैसे FlashAttention, xFormers, DeepSpeed आदि) सीधे एकीकृत हो सकता है, जिससे शिक्षण और तर्क प्रक्रिया तेज हो जाती है। इसका अर्थ है कि यह प्रौद्योगिकी वैज्ञानिक अप्रूवल के अलावा उद्योग के अनुप्रयोग की संभावना भी रखती है, जो फिल्म निर्माण, विज्ञापन जनरेशन, खेल के फिल्म अनुक्रम और डिजिटल व्यक्ति सामग्री निर्माण के क्षेत्र में अनुप्रयोग के लिए उपयोगी हो सकती है।
OpenAI, Pika, Runway आदि कंपनियों के संयुक्त रूप से छोटे वीडियो जनरेशन के आगे बढ़ने के बाद, चीन विज्ञान एवं प्रौद्योगिकी विश्वविद्यालय और बाइटडैक द्वारा पेश किए गए मॉडल को घरेलू पहला ऐसा सिस्टम माना जाता है जो वास्तव में मिनट-लंबे लंबे वीडियो जनरेशन को वास्तविक रूप से प्राप्त कर सकता है, इसके एल्गोरिथ्म, दक्षता और विस्तार के ऊपर नेतृत्व के कारण, यह चीन को वीडियो जनरेशन के क्षेत्र में वैश्विक अग्रणी बना सकता है।
पता: https://jiawn-creator.github.io/mixture-of-groups-attention/