वोल्कन इंजन टेक्नोलॉजी लिमिटेड ने 2024 एआई नवाचार प्रदर्शनी में डौबाओ·वीडियो जनरेशन मॉडल लॉन्च करने की घोषणा की, जो इसके बड़े मॉडल परिवार का एक नया सदस्य है।
वोल्कन इंजन के राष्ट्रपति तान डाई ने कहा कि डौबाओ·वीडियो जनरेशन मॉडल में वीडियो जनरेशन के लिए कई उन्नत विशेषताएँ हैं, जिसमें सटीक अर्थ समझना, कई क्रियाएँ और कई विषयों के बीच इंटरैक्शन, शक्तिशाली गतिशील प्रभाव और संगतता के साथ कई शॉट जनरेशन की क्षमता शामिल है।
यह मॉडल जटिल निर्देशों को समझने और पालन करने में सक्षम है, जिससे कई विषयों के बीच इंटरैक्शन किया जा सकता है, और वीडियो विषय के बड़े गतिशीलता और शॉट्स के बीच शानदार बदलाव किया जा सकता है। इसके अलावा, यह कई शॉट्स के बीच संगतता बनाए रख सकता है, 10 सेकंड में एक पूर्ण कहानी बता सकता है, और विभिन्न शैलियों और अनुपातों का समर्थन करता है, जैसे कि काले और सफेद, 3डी एनिमेशन, पारंपरिक चीनी पेंटिंग आदि।
साथ ही, मॉडल काले और सफेद, 3डी एनिमेशन, 2डी एनिमेशन, पारंपरिक चीनी पेंटिंग आदि जैसी कई शैलियों का समर्थन करता है, और 1:1, 3:4, 4:3, 16:9, 9:16, 21:9 जैसे कई अनुपातों के लिए अनुकूलित होता है, ताकि विभिन्न टर्मिनल और स्क्रीन आकारों के लिए उपयुक्त हो सके।
डौबाओ·वीडियो जनरेशन मॉडल न केवल वीडियो की उच्च गुणवत्ता को बढ़ा सकता है, बल्कि वीडियो को विषय के बड़े गतिशीलता और शॉट्स के बीच शानदार बदलाव करने की अनुमति देता है, जिसमें जूम, पैन, टिल्ट, स्केल, और टारगेट ट्रैकिंग जैसी समृद्ध शॉट भाषा क्षमताएँ शामिल हैं।
डौबाओ वीडियो जनरेशन बड़े मॉडल में मुख्य रूप से दो संस्करण शामिल हैं: Doubao-वीडियो जनरेशन PixelDance और Doubao-वीडियो जनरेशन-Seaweed 。
वोल्कन इंजन में प्रवेश करें, आप देख सकते हैं कि PixelDance और Seaweed के दो Doubao-वीडियो जनरेशन संस्करण लॉन्च किए गए हैं।
एक, Doubao-वीडियो जनरेशन PixelDance
PixelDance V1.4 ByteDance रिसर्च टीम द्वारा विकसित DiT संरचना का वीडियो जनरेशन बड़ा मॉडल है, जो टेक्स्ट-टू-वीडियो और इमेज-टू-वीडियो दोनों का समर्थन करता है, और एक बार में 10 सेकंड तक के शानदार वीडियो क्लिप उत्पन्न कर सकता है।
यह मॉडल उपयोगकर्ताओं को टेक्स्ट और चित्र इनपुट करने की अनुमति देता है, और उत्कृष्ट अर्थ समझने की क्षमता रखता है, जिससे उच्च गुणवत्ता वाले वीडियो क्लिप तेजी से उत्पन्न किए जा सकते हैं, जो फिल्म निर्माण, विज्ञापन मीडिया आदि कई क्षेत्रों में लागू किए जा सकते हैं।
यहां PixelDance संस्करण के जनरेशन उदाहरण दिए गए हैं:
सटीक अर्थ समझना
PixelDance V1.4 जटिल प्रॉम्प्ट का पालन कर सकता है, समय-क्रम में कई क्रियाओं के निर्देशों और कई विषयों के बीच इंटरैक्शन की क्षमता को अनलॉक कर सकता है।
प्रॉम्प्ट: एक आदमी दृश्य में प्रवेश करता है, महिला उसकी ओर मुड़ती है, वे एक-दूसरे को गले लगाते हैं, पृष्ठभूमि में लोग चल रहे हैं।
शक्तिशाली गतिशीलता और शानदार कैमरा कार्य
अत्यधिक शॉट भाषा का समर्थन करता है, दृष्टिकोण को लचीले ढंग से नियंत्रित करता है, और वास्तविक दुनिया का अनुभव प्रदान करता है।
संगतता के साथ कई शॉट जनरेशन
कहानी आधारित कई शॉट्स के लघु फिल्म को एक-क्लिक में उत्पन्न करने की क्षमता रखता है, और कई शॉट्स के बीच संगतता की तकनीकी चुनौती को सफलतापूर्वक हल किया है, 10 सेकंड में एक कहानी को प्रारंभिक, मध्य और समापन में बता सकता है। एक प्रॉम्प्ट में कई शॉट्स के बीच परिवर्तन करते समय, विषय, शैली, और माहौल की संगति बनाए रखता है।
कई शैलियों और अनुपातों के साथ संगतता
गहराई से अनुकूलित ट्रांसफार्मर संरचना ने वीडियो जनरेशन की सामान्यीकरण क्षमता को काफी बढ़ा दिया है, जो काले और सफेद, 3डी एनिमेशन, 2डी एनिमेशन, पारंपरिक चीनी पेंटिंग, जल रंग, और पेस्टल जैसे कई शैलियों का समर्थन करता है, और 1:1, 3:4, 4:3, 16:9, 9:16, 21:9 के छह अनुपातों को शामिल करता है।
दो, Doubao-वीडियो जनरेशन-Seaweed
यह मॉडल वीडियो जनरेशन के दो तरीकों का समर्थन करता है: टेक्स्ट-टू-वीडियो और इमेज-टू-वीडियो। यह तकनीक ट्रांसफार्मर संरचना पर आधारित है, जो समय-स्थान संकुचन के潜空间 का उपयोग करके प्रशिक्षित होती है, और मॉडल मूल रूप से कई संकल्पों का उत्पादन करता है, जो क्षैतिज और ऊर्ध्वाधर स्क्रीन के लिए अनुकूलित होता है, और उपयोगकर्ता द्वारा इनपुट किए गए उच्च-परिभाषा छवि संकल्प के अनुसार अनुकूलित और प्रामाणिकता बनाए रख सकता है। डिफ़ॉल्ट आउटपुट 720p संकल्प, 24fps, 5 सेकंड की लंबाई है, और इसे 20-30 सेकंड तक गतिशील रूप से बढ़ाया जा सकता है।
यहां Seaweed संस्करण के जनरेशन उदाहरण दिए गए हैं:
अत्यधिक यथार्थता, बारीक और समृद्ध विवरण स्तर
प्रॉम्प्ट: एक बड़ा पांडा गर्मागर्म हॉटपॉट का आनंद ले रहा है।
पेशेवर स्तर का रंग और प्रकाश-छाया
गतिशील और सुचारू
डौबाओ·वीडियो जनरेशन मॉडल का लॉन्च, उम्मीद है कि ई-कॉमर्स मार्केटिंग, एनिमेशन शिक्षा, शहरी सांस्कृतिक पर्यटन, माइक्रो स्क्रिप्ट (संगीत MV, लघु फिल्म, लघु नाटक आदि) जैसे कई क्षेत्रों में नवाचार और दक्षता में सुधार लाएगा। वोल्कन इंजन ने कहा कि इस मॉडल का विमोचन AIGC अनुप्रयोग नवाचार को तेजी से बढ़ावा देगा।
वोल्कन इंजन ने वादा किया है कि वह मॉडल क्षमताओं के उन्नयन और पुनरावृत्ति को जारी रखेगा, और अधिक स्थानों पर मॉडल क्षमताओं के अनुप्रयोग की खोज करेगा, और कंपनियों को क्लाउड पर बुद्धिमत्ता प्रदान करने के लिए शक्ति प्रदान करेगा।
आंकड़ों के अनुसार, सितंबर तक, डौबाओ बड़े मॉडल के दैनिक टोकन उपयोग की मात्रा 1.3 ट्रिलियन से अधिक हो गई है, और चार महीने में टोकन की कुल वृद्धि 10 गुना से अधिक हो गई है। मल्टी-मोडल के मामले में, डौबाओ·टेक्स्ट-टू-इमेज मॉडल ने दैनिक 50 लाख चित्र उत्पन्न किए हैं, इसके अलावा, डौबाओ वर्तमान में दैनिक 8.5 लाख घंटे की आवाज़ को संभालता है।