AI क्षेत्र में एक बड़ी प्रौद्योगिकी सुधार आया है - MotionPro, जो इमेज टू वीडियो (I2V) उत्पादन के लिए डिजाइन किया गया एक मानवांतरित गति नियंत्रक आज आधिकारिक रूप से प्रदर्शन के लिए आगे बढ़ा। इस प्रौद्योगिकी ने नवाचारीय क्षेत्र की ट्रैक्स और गति मास्क तकनीक का प्रयोग करके वस्तुओं और कैमरा गति को अधिक सांद्रता से नियंत्रित करने में कामयाबी प्राप्त की है, जिससे वीडियो उत्पादन में अपरिहार्य लचीलापन और सटीकता आई है। AIbase ने MotionPro के नवीनतम प्रगति और इसके उद्योग पर गहरा प्रभाव को संकलित किया है।

image.png

नवीनता: क्षेत्रीय ट्रैक्स और गति मास्क का सुधार

पारंपरिक इमेज टू वीडियो उत्पादन प्रौद्योगिकी आमतौर पर बड़े पैमाने पर गॉसियन कोर का प्रयोग करती है, लेकिन इस तरह की विधि को निश्चित गति क्षेत्र की परिभाषा की कमी के कारण, गति नियंत्रण कम तीव्र रहता है, और वस्तु गति और कैमरा गति को अलग-अलग नहीं कर पाती है। MotionPro ने क्षेत्रीय ट्रैक्स और गति मास्क का प्रयोग करके इस समस्या को हल करने में सफल रहा है। यह तकनीक पहले ट्रैकिंग मॉडल का प्रयोग करके प्रशिक्षित वीडियो का फ्लो निर्माण करती है, क्षेत्रीय ट्रैक्स उत्पन्न करती है जो निष्कर्षन वाले परिदृश्य को प्रतिबिंबित करती है, फिर गति मास्क का प्रयोग करके पूरे गति डायनामिक्स को कैप्चर करती है, इस प्रकार मानवांतरित गति संयोजन को प्राप्त करती है।

MotionPro के क्षेत्रीय ट्रैक्स तरीके ने पारंपरिक गॉसियन कोर विस्तार को छोड़कर क्षेत्र के अंदर वास्तविक गति ट्रैक्स का प्रयोग किया है, जिससे गति नियंत्रण में बहुत अधिक सटीकता बनाई गई है। चाहे यह वस्तु आइमेज में कैसे घूमे, या कैमरा का चलना, बाँटना, या आकार बदलना हो, MotionPro ऐसे वीडियो उत्पादन परिणाम प्रदान करता है जो अधिक नाटकीय और विस्तृत होते हैं।

image.png

बहुमुखी नियंत्रण: वस्तु और कैमरा दोनों को नियंत्रित करना

MotionPro का एक और महत्वपूर्ण विशेषता यह है कि यह वस्तु और कैमरा दोनों की गति को एकसाथ नियंत्रित करता है, जिससे कैमरा नियंत्रण के लिए विशेष कैमरा पोजिशन डेटासेट की आवश्यकता नहीं होती है। उदाहरण के तौर पर, उपयोगकर्ता फिंगर ड्रॉग और सेलेक्ट करने के अंतर्गत वस्तु की गति पथ या कैमरा दृष्टि के परिवर्तन को सूचीबद्ध कर सकते हैं, और MotionPro उनकी अपेक्षा बनाये रखने वाला वीडियो उत्पादन कर सकता है। इसके अलावा, MotionPro और MotionPro-Dense के संयोजन का प्रयोग करके, यह तकनीक साथानुपातिक वीडियो उत्पादन का समर्थन करती है, जिससे वस्तु और पृष्ठभूमि की गति के उच्च समर्थन को सुनिश्चित किया जाता है।

MotionPro ने उपयोगकर्ताओं के लिए एक सुविधाजनक Gradio डेमो इंटरफेस पेश किया है, जिससे उपयोगकर्ता आराम से गति ट्रैक्स को कंट्रोल कर सकते हैं। यह डिजाइन तकनीकी बाधाओं को कम करता है, और ग्राहकों को उच्च गुणवत्ता वाले डायनामिक वीडियो बनाने में सहायता प्रदान करता है। आधिकारिक डेमो वीडियो इसके परिसंचार की उच्च क्षमता को और वस्तु ट्रैक्स नियंत्रण की उत्कृष्टता को साबित करते हैं।

image.png

ओपन सोर्स और ऑप्टिमाइजेशन: डेवलपर कम्युनिटी को सक्षम करना

MotionPro की विकास टीम ने ओपन सोर्स इकोसिस्टम पर भी मजबूत समर्थन प्रदान किया है। प्रोजेक्ट कोड GitHub पर ऑपन सोर्स किया गया है, जिसमें PyTorch Lightning के आधार पर एक प्रशिक्षण फ़्रेमवर्क है, मेमरी कुशलता में सुधार किया गया है, और NVIDIA A100 GPU पर batch size 8 के साथ SVD मॉडल की फाइन ट्यूनिंग का समर्थन किया गया है। इसके अलावा, टीम ने डेटा बिल्डिंग टूल का प्रदान किया है, जिससे फ़ोल्डर और WebDataset फ़ॉर्मैट से वीडियो डेटासेट लोड किया जा सकता है, जिससे डेवलपर्स को तेजी से प्रारंभ करने में मदद मिलती है।

उल्लेखनीय बात है कि MotionPro टीम ने MC-Bench, जो 1.1K यूजर लेबल्ड इमेज-ट्रैक्स पेर के साथ एक मानक डेटासेट बनाया है, जिसका उपयोग बहुत उपमानित और वस्तु स्तरीय I2V गति नियंत्रण परिणामों की मूल्यांकन के लिए किया जा सकता है। इस डेटासेट के आने से उद्योग में ऊंची गुणवत्ता वाले गति लेबल्ड डेटा की अनिश्चितता की भरपाई की गई है, जो आगे के शोध के लिए महत्वपूर्ण समर्थन प्रदान करती है।

उद्योग प्रभाव: वीडियो उत्पादन के नये संकेतक बनाने में

MotionPro का प्रदर्शन इमेज टू वीडियो उत्पादन प्रौद्योगिकी को एक नया ऊंचा स्तर पर ले गया है। इसकी सटीक गति नियंत्रण क्षमता और वस्तु और कैमरा गति के वियोजन की सक्षमता ने उत्पादित वीडियो की गुणवत्ता में सुधार किया है, और फिल्म निर्माण, खेल विकास, आर्टिफिशियल रियलिटी आदि क्षेत्रों में क्रिएटर्स को और अधिक लचीले उपकरण प्रदान किए हैं। MotionPro की जटिल कैमरा गति और वस्तु ट्रैक्स नियंत्रण पर दिखाई दी उत्कृष्टता, जो वर्तमान प्रौद्योगिकी (जैसे AnimateDiff और VideoComposer) की तुलना में है, परंपरागत तरीकों के कारण नाटकीय परिणाम बनाने की समस्या को उपेक्षित करती है।