कुनलुन वान्वी स्काईरील्स टीम ने आधिकारिक तौर पर स्काईरील्स-वी2 को जारी किया और इसे ओपन सोर्स किया है, यह दुनिया का पहला अनंत समय फिल्म निर्माण मॉडल है जो डिफ्यूजन-फोर्सिंग फ्रेमवर्क का उपयोग करता है। यह मॉडल मल्टीमॉडल बड़े भाषा मॉडल (एमएलएलएम), बहु-चरण पूर्व-प्रशिक्षण, सुदृढीकरण अधिगम और डिफ्यूजन-फोर्सिंग फ्रेमवर्क के संयोजन के माध्यम से सहयोगात्मक अनुकूलन प्राप्त करता है, जो वीडियो निर्माण तकनीक को एक नए चरण में ले जाता है।

स्काईरील्स-वी2 का प्रकाशन मौजूदा वीडियो निर्माण तकनीक में प्रॉम्प्ट अनुपालन, दृश्य गुणवत्ता, गतिशीलता और वीडियो अवधि समन्वय की महत्वपूर्ण चुनौतियों को हल करने के उद्देश्य से है। यह मॉडल न केवल तकनीकी रूप से सफलता प्राप्त करता है, बल्कि कहानी निर्माण, चित्र से वीडियो निर्माण, कैमरा संचालन विशेषज्ञ और बहु-विषयक सुसंगत वीडियो निर्माण (स्काईरील्स-ए2) सहित कई अनुप्रयोग परिदृश्य भी प्रदान करता है। स्काईरील्स-वी2 अब 30 सेकंड और 40 सेकंड के वीडियो बनाने का समर्थन करता है, और उच्च गति गुणवत्ता, उच्च सुसंगतता और उच्च-निष्ठा वीडियो बनाने की क्षमता रखता है।

微信截图_20250421110023.png

स्काईरील्स-वी2 के मुख्य तकनीकी नवाचारों में शामिल हैं:

  1. व्यापक सिनेमाई स्तर का वीडियो समझ मॉडल स्काईकैप्शनर-वी1: संरचित वीडियो प्रतिनिधित्व विधि के माध्यम से, मल्टीमॉडल एलएलएम के सामान्य विवरण और उप-विशेषज्ञ मॉडल की विस्तृत लेंस भाषा के संयोजन से, लेंस भाषा की समझ की क्षमता में उल्लेखनीय रूप से सुधार हुआ है। यह मॉडल वीडियो डेटा को कुशलतापूर्वक समझ सकता है और मूल संरचनात्मक जानकारी के अनुरूप विविध विवरण उत्पन्न कर सकता है।

  2. गति के लिए प्राथमिकता अनुकूलन: सुदृढीकरण अधिगम प्रशिक्षण के माध्यम से, मानव-अनुमोदित और सिंथेटिक विकृत डेटा का उपयोग करके, गति विकृति, असंगति आदि जैसी समस्याओं को हल किया गया है। स्काईरील्स-वी2 गतिशीलता के मामले में उत्कृष्ट प्रदर्शन करता है, जो सुचारू और यथार्थवादी वीडियो सामग्री उत्पन्न कर सकता है।

  3. कुशल डिफ्यूजन-फोर्सिंग फ्रेमवर्क: पूर्व-प्रशिक्षित डिफ्यूजन मॉडल को ठीक करके, इसे डिफ्यूजन-फोर्सिंग मॉडल में बदल दिया गया है, जिससे निर्माण दक्षता में उल्लेखनीय रूप से सुधार हुआ है। यह विधि न केवल प्रशिक्षण लागत को कम करती है, बल्कि लंबे वीडियो के कुशल निर्माण को भी प्राप्त करती है।

  4. प्रगतिशील रिज़ॉल्यूशन पूर्व-प्रशिक्षण और बहु-चरण बाद के प्रशिक्षण अनुकूलन: सामान्य डेटासेट, स्व-एकत्रित मीडिया और कला संसाधन पुस्तकालयों से अरबों डेटा को एकीकृत करके, बहु-चरण अनुकूलन विधि के माध्यम से, यह सुनिश्चित किया गया है कि स्काईरील्स-वी2 संसाधनों की सीमित स्थिति में धीरे-धीरे कई पहलुओं में सुधार करता है और सिनेमाई स्तर के वीडियो निर्माण के स्तर तक पहुँचता है।

प्रदर्शन मूल्यांकन के संदर्भ में, स्काईरील्स-वी2 ने स्काईरील्स-बेंच और वी-बेंच में उत्कृष्ट प्रदर्शन किया है। स्काईरील्स-बेंच में 1020 टेक्स्ट प्रॉम्प्ट शामिल हैं, जो व्यवस्थित रूप से चार प्रमुख आयामों का मूल्यांकन करते हैं: निर्देश अनुपालन, गति गुणवत्ता, सुसंगतता और दृश्य गुणवत्ता। स्काईरील्स-बेंच मूल्यांकन में, स्काईरील्स-वी2 ने निर्देश अनुपालन में उल्लेखनीय प्रगति की है, साथ ही गति गुणवत्ता सुनिश्चित करते हुए वीडियो प्रभाव की सुसंगतता का त्याग नहीं किया है। वी-बेंच 1.0 स्वचालित मूल्यांकन में, स्काईरील्स-वी2 ने कुल स्कोर (83.9%) और गुणवत्ता स्कोर (84.7%) दोनों में सभी तुलनात्मक मॉडलों, जिसमें हुन्युआनवीडियो-13बी और वान2.1-14बी शामिल हैं, को पार कर लिया है।

स्काईरील्स-वी2 के अनुप्रयोग परिदृश्य विविध हैं, जिनमें शामिल हैं:

  1. कहानी निर्माण: स्लाइडिंग विंडो विधि के माध्यम से, मॉडल नई फ़्रेम उत्पन्न करते समय पहले उत्पन्न फ़्रेम और टेक्स्ट प्रॉम्प्ट का संदर्भ लेता है, जो समय पर विस्तार का समर्थन करता है और सुसंगत कथानक वाले लंबे शॉट वीडियो उत्पन्न करता है।

  2. छवि से वीडियो संश्लेषण: छवि से वीडियो (आई2वी) के निर्माण के लिए दो विधियाँ प्रदान करता है, जिसमें पूर्ण-क्रम टेक्स्ट-टू-वीडियो (टी2वी) डिफ्यूजन मॉडल को ठीक करना और डिफ्यूजन-फोर्सिंग मॉडल को फ्रेम स्थिति के साथ जोड़ना शामिल है।

  3. कैमरा निर्देशन कार्य: विशेष रूप से चयनित नमूनों के माध्यम से, यह मूल कैमरा गति और उनके सामान्य संयोजनों के संतुलित प्रतिनिधित्व को सुनिश्चित करता है, जिससे फोटोग्राफिक प्रभाव में उल्लेखनीय रूप से सुधार होता है।

  4. तत्व से वीडियो निर्माण: स्काईरील्स-वी2 बेस मॉडल पर आधारित, स्काईरील्स-ए2 योजना विकसित की गई है, जो किसी भी दृश्य तत्व को टेक्स्ट प्रॉम्प्ट द्वारा निर्देशित सुसंगत वीडियो में संयोजित कर सकती है।

कुनलुन वान्वी स्काईरील्स टीम ने कहा कि वह वीडियो निर्माण तकनीक के विकास को आगे बढ़ाना जारी रखेगी और स्काईकैप्शनर-वी1 और स्काईरील्स-वी2 श्रृंखला के मॉडल को पूरी तरह से ओपन सोर्स करेगी ताकि अकादमिक और औद्योगिक क्षेत्रों में आगे के शोध और अनुप्रयोगों को बढ़ावा मिल सके। टीम स्काईरील्स-वी2 के प्रदर्शन को बेहतर बनाना जारी रखेगी, अधिक अनुप्रयोग परिदृश्यों का पता लगाएगी और गणना लागत को और कम करेगी ताकि इसे रचनात्मक सामग्री निर्माण और आभासी सिमुलेशन क्षेत्रों में व्यापक रूप से लागू किया जा सके।

  • GitHub पता:

    https://github.com/SkyworkAI/SkyReels-V2

  • शोध पत्र पता:

    https://arxiv.org/abs/2504.13074

  • स्काईरील्स आधिकारिक वेबसाइट पता:

    https://www.skyreels.ai/home