गूगल रिसर्च टीम द्वारा हाल ही में पेश की गई ReCapture तकनीक पारंपरिक वीडियो संपादन के तरीके को बदल रही है। यह नवाचार सामान्य उपयोगकर्ताओं को पेशेवर स्तर की कैमरा मूवमेंट समायोजन को आसानी से प्राप्त करने की अनुमति देता है, जिससे पहले से शूट किए गए वीडियो के लिए नए कैमरा एंगल को डिजाइन किया जा सकता है।
पारंपरिक वीडियो पोस्ट-प्रोडक्शन में, पहले से शूट किए गए वीडियो के कैमरा एंगल को बदलना एक तकनीकी चुनौती रही है। मौजूदा समाधान विभिन्न प्रकार के वीडियो सामग्री को संभालते समय अक्सर जटिल कैमरा मूवमेंट प्रभावों और चित्र विवरणों को एक साथ बनाए रखने में कठिनाई का सामना करते हैं। ReCapture ने एक नया दृष्टिकोण अपनाया है, जिसने पारंपरिक 4D मध्य प्रतिनिधित्व विधियों का उपयोग नहीं किया, बल्कि जनरेटिव वीडियो मॉडल में संग्रहीत मूवमेंट ज्ञान का चतुराई से उपयोग किया है, Stable Video Diffusion के माध्यम से कार्य को वीडियो से वीडियो के परिवर्तन प्रक्रिया के रूप में पुनर्परिभाषित किया है।
यह प्रणाली दो चरणों में काम करती है। पहले चरण में "एंकर वीडियो" उत्पन्न किया जाता है, यानी नए कैमरा एंगल के साथ प्रारंभिक आउटपुट संस्करण। इस चरण में CAT3D जैसे डिफ्यूजन मॉडल का उपयोग करके मल्टी-एंगल वीडियो बनाया जा सकता है, या फ्रेम-बाय-फ्रेम गहराई का अनुमान और पॉइंट क्लाउड रेंडरिंग के माध्यम से इसे प्राप्त किया जा सकता है। हालांकि इस संस्करण में कुछ समय अनुक्रम में असंगतता और दृश्य दोष हो सकते हैं, लेकिन यह दूसरे चरण के लिए आधार तैयार करता है।
दूसरे चरण में मास्क वाले वीडियो माइक्रो-ट्यूनिंग का उपयोग किया जाता है, जो मौजूदा सामग्री पर प्रशिक्षित जनरेटिव वीडियो मॉडल का उपयोग करके वास्तविक मूवमेंट प्रभाव और समय परिवर्तन उत्पन्न करता है। प्रणाली एंकर वीडियो की विशिष्ट गतिशील विशेषताओं को समझने और दोहराने के लिए मॉडल को अनुकूलित करने के लिए समय अनुक्रम LoRA (लो-रैंक अनुकूलन) परत को पेश करती है, बिना पूरे मॉडल को फिर से प्रशिक्षित किए। साथ ही, स्पेसियल LoRA परत सुनिश्चित करती है कि चित्र के विवरण और सामग्री नए कैमरा मूवमेंट के साथ सामंजस्य में रहें। यह जनरेटिव वीडियो मॉडल को मूल वीडियो के विशेष मूवमेंट को बनाए रखते हुए ज़ूम, पैन और टिल्ट जैसी प्रक्रियाएँ पूरी करने की अनुमति देता है।
हालांकि ReCapture उपयोगकर्ता-मित्रता वीडियो प्रोसेसिंग में महत्वपूर्ण प्रगति कर चुका है, यह वर्तमान में अनुसंधान चरण में है और व्यावसायिक उपयोग के लिए अभी भी एक लंबा रास्ता तय करना है। ध्यान देने योग्य बात यह है कि जबकि गूगल के पास कई वीडियो AI परियोजनाएँ हैं, लेकिन उन्होंने अभी तक उन्हें बाजार में नहीं लाया है, जिनमें Veo परियोजना शायद व्यावसायिक उपयोग के सबसे करीब है। इसी तरह, Meta द्वारा हाल ही में पेश किया गया Movie-Gen मॉडल और OpenAI द्वारा साल की शुरुआत में जारी किया गया Sora भी व्यावसायिकता हासिल नहीं कर पाए हैं। वर्तमान में, वीडियो AI बाजार मुख्य रूप से Runway जैसे स्टार्टअप द्वारा संचालित है, जिसने पिछले गर्मियों में Gen-3Alpha मॉडल लॉन्च किया था।