पीको-एमआर टीम, जो बाइटडांस के अंतर्गत है, ने **एक्स-4डी** को आधिकारिक रूप से खुला स्रोत बनाया है, जो एक अभूतपूर्व 4डी वीडियो जनरेशन फ्रेमवर्क है। इस उपकरण में एक दृष्टिकोण (मोनोक्यूलर) वीडियो से उच्च गुणवत्ता वाले, बहु-दृष्टिकोण वाले 4डी वीडियो अनुक्रम (3डी स्पेस + समय के आयाम) बनाने की क्षमता है, जो वीडियो जनरेशन तकनीक में एक नई मील का पत्थर बन गया है। एक्स-4डी वर्तमान खुले स्रोत विधियों के तकनीकी संकेतकों को पार करता है और आभासी 3डी सामग्री बनाने और "वर्ल्ड मॉडल" बनाने में महत्वपूर्ण समर्थन प्रदान करता है। यहां AIbase द्वारा इस अग्रणी तकनीक के बारे में एक गहरा विश्लेषण है।
**तकनीकी अप्रत्याशितता: एकल दृष्टिकोण से स्वतंत्र दृष्टिकोण**
पारंपरिक वीडियो जनरेशन तकनीक बहु-दृष्टिकोण जनरेशन में दो मुख्य चुनौतियों का सामना करती है: एक ओर वे बहु-दृष्टिकोण कैमरा और डेटा सेट के लिए महंगे उपकरणों की आवश्यकता होती है; दूसरी ओर, वे छिपे हुए क्षेत्रों के साथ निपटने में कठिनाई का सामना करते हैं, जिसके कारण अत्यधिक दृष्टिकोण पर उत्पादित वीडियो में वस्तुओं के भेद या विवरण विकृति हो सकती है। एक्स-4डी ने नवाचार किया है, **गहरा बंद ग्रिड (डब्लू-मेश)** प्रतिनिधित्व और हल्के आकार के अनुकूलन संरचना के साथ, इन समस्याओं का समाधान कर दिया है।
डब्लू-मेश एक्स-4डी की मुख्य तकनीक है, जो पूर्ण बंद ग्रिड संरचना बनाकर दृश्य और अदृश्य पैटच के बारे में जानकारी रिकॉर्ड करता है, बहु-दृष्टिकोण निरीक्षण के बिना जटिल स्थिति टॉपोलॉजी के एकीकरण के लिए उपयोग किया जाता है। पूर्व-प्रशिक्षित गहराई पूर्वानुमान मॉडल के साथ, एक्स-4डी एक फ्रेम पिक्सेल को 3डी स्पेस में प्रोजेक्ट करता है, ग्रिड शीर्ष बनाता है और ज्यामितीय संबंध के आधार पर छिपे हुए क्षेत्रों को सटीक रूप से चिह्नित करता है। इस तरह के तरीके से एक्स-4डी के उत्पादित वीडियो अत्यधिक दृष्टिकोण (जैसे ±90°) पर भौतिक संगतता और विवरण पूर्णता बरकरार रखता है।
इसके अलावा, एक्स-4डी दो प्रकार के मास्क जनरेशन रणनीति शामिल करता है - **रेंडर मास्क** और **ट्रैक मास्क**, जो दृष्टिकोण गति के माध्यम से और फ्रेम-अंतर लगातारता के माध्यम से बहु-दृष्टिकोण शिक्षण डेटा की कमी की समस्या को हल करते हैं। इन रणनीतियों के कारण एक्स-4डी केवल एकल दृष्टिकोण वीडियो के साथ "दृष्टिकोण अंतर" के बारे में बनाता है, जिससे डेटा एकत्रीकरण लागत में बड़ी कमी होती है।
**प्रदर्शन: निर्देशक विशेषताओं में पूर्ण अग्रणी**
एक्स-4डी के प्रदर्शन परीक्षण में उत्कृष्ट प्रदर्शन देखा गया। 150 नेटवर्क वीडियो वाले डेटासेट के आधार पर, एक्स-4डी **FID (फ्रेशेट दूरी)**, **FVD (फ्रेशेट वीडियो दूरी)** और **VBench** जैसे उद्योग मानक संकेतकों में वर्तमान खुले स्रोत विधियों को पार कर गया। विशेष रूप से अत्यधिक दृष्टिकोण (जैसे लगभग 90°) के उत्पादन के कार्य में, एक्स-4डी के प्रदर्शन के लाभ बहुत अधिक दिखाई दिए, जो वीडियो में वस्तु विवरण और छिपे हुए तार्किकता में अधिक वास्तविकता दिखाता है।
50 स्वयंसेवकों के एक अध्ययन में, 70.7% प्रतिभागी ने एक्स-4डी के अत्यधिक दृष्टिकोण पर भौतिक संगतता के बारे में अन्य खुले स्रोत विधियों की तुलना में अधिक बेहतर माना। यह दर्शाता है कि एक्स-4डी तकनीकी संकेतकों में अग्रणी है, साथ ही वास्तविक अनुप्रयोगों में उपयोगकर्ताओं द्वारा उच्च मान्यता प्राप्त है।
बाइटडांस एक्स-4डी को पूरी तरह से खुला स्रोत बना देता है, कोड और संबंधित दस्तावेज GitHub पर जारी कर दिए गए हैं, जो विश्व के विकासकर्ताओं के लिए मुफ्त एक्सेस के अवसर प्रदान करता है। इस कदम ने बाइटडांस के खुले स्रोत समुदाय में योगदान को दर्शाया है, और आभासी 3डी फिल्म, वर्चुअल रियलिटी (VR), एग्जाइटेड रियलिटी (AR) आदि क्षेत्रों में नवाचार अनुप्रयोगों के आधार को भी तैयार करता है।
एक्स-4डी पूर्व-प्रशिक्षित WAN-2.1 मॉडल पर आधारित है, **LoRA-based Adapter** संरचना के साथ, गणना की दक्षता बरकरार रखते हुए, DW-Mesh के ज्यामितीय पूर्वाग्रह की जानकारी शामिल करता है, जो उत्पादित वीडियो की ज्यामितीय संगतता और फ्रेम-अंतर संतति सुनिश्चित करता है। इस हल्के डिज़ाइन के कारण, एक्स-4डी संसाधन सीमित परिस्थितियों में भी उच्च दक्षता से काम कर सकता है, जो व्यापक विकास परिदृश्यों के लिए उपयुक्त है।
एक्स-4डी के जारी होने को "वर्ल्ड मॉडल" बनाने के महत्वपूर्ण विकास के रूप में देखा जाता है। पारंपरिक एक दिशा वाले वीडियो जनरेशन मॉडल के बजाय, एक्स-4डी उपयोगकर्ताओं के वीडियो सामग्री के अनुसंधान की क्षमता प्रदान करता है, जैसे कि "समानांतर ब्रह्मांड" में दृष्टिकोण बदलने के समान। ऐसी कैमरा नियंत्रित 4डी जनरेशन तकनीक आभासी सामग्री बनाने में असीम संभावनाएं प्रदान करती है, जैसे बाजार के अंतरक्रिया 3डी फिल्म, वर्चुअल यात्रा और खेल विकास।