हाल ही में, टेंग्यून ने हुनयुआनवर्ल्ड-वॉयेजर को आधिकारिक रूप से जारी किया, जो एक नवाचार वीडियो डिफ्यूज़न फ्रेमवर्क है, जिसका उद्देश्य एकल प्रवेश छवि के माध्यम से विश्व संगत 3D बिंदु बादल उत्पन्न करना है, जो उपयोगकर्ताओं को अपने अनुकूलित कैमरा मार्ग के साथ अंतर्निहित अनुभव के लिए समर्थन प्रदान करता है।

image.png

आधिकारिक रूप से बताया गया है कि यह विश्व के पहला असली 3D पुनर्निर्माण क्षमता वाला अत्यधिक दूरी वाला विश्व मॉडल है, जो AI चालित VR, खेल और सिमुलेशन स्पेस स्मार्ट के लिए निर्धारित करता है। इस मॉडल ने न केवल बिना किसी पश्च-संसाधन के निर्माण के लिए ठीक संरेखित गहराई जानकारी और RGB वीडियो उत्पन्न करने में सक्षम बनाया है, बल्कि ऊंची गुणवत्ता वाले 3D पुनर्निर्माण के लिए सीधे उपयोग के लिए भी तैयार है।

  • सीधा 3D आउटपुट: COLMAP जैसे उपकरण के बिना बिंदु बादल वीडियो को 3D फॉर्मेट में बाहर निकालने के लिए, तत्काल 3D एप्लिकेशन की अनुमति देता है।

  • नवाचार 3D मेमोरी: विस्तारयोग्य विश्व कैश योजना को शामिल किया गया है, जो किसी भी कैमरा पथ के ज्यामितीय संगतता को सुनिश्चित करता है।

  • उत्कृष्ट कार्यक्षमता: स्टैनफोर्ड वर्ल्डस्कोर परीक्षण में प्रथम स्थान पर रहा, वीडियो उत्पादन और 3D पुनर्निर्माण बेंचमार्क परीक्षण में अच्छा प्रदर्शन किया।

हुनयुआनवर्ल्ड-वॉयेजर की विशेषता दो महत्वपूर्ण घटकों के एक संरचना है। पहला "वर्ल्ड-संगत वीडियो डिफ्यूज़न" है, जिसका उद्देश्य अस्तित्व में विश्व अवलोकन के आधार पर एक एकीकृत ढांचा बनाना है, जो सही रूप से संरेखित RGB वीडियो और गहराई वीडियो अनुक्रम उत्पन्न करता है, जिससे पूरे स्थल की संगतता सुनिश्चित होती है। दूसरा "लंबी दूरी वाला विश्व अन्वेषण" है, जो एक दक्ष विश्व कैश योजना का उपयोग करता है, बिंदु बादल के उत्खनन और स्व-पुनर्विचार तर्क क्षमता के साथ, जो अनुक्रमिक स्थल विस्तार के लिए समर्थन प्रदान करता है, और संदर्भ-अनुभूत संगतता तकनीक के माध्यम से चित्रण से चित्रण के लिए चिकना वीडियो नमूना प्रदान करता है।

हुनयुआनवर्ल्ड-वॉयेजर मॉडल के प्रशिक्षण के लिए, अनुसंधान टीम ने एक विस्तारयोग्य डेटा निर्माण इंजन बनाया। यह स्वचालित वीडियो पुनर्निर्माण लाइन अनुक्रम को किसी भी प्रवेश वीडियो के लिए कैमरा पोजिशन और मापदंड गहराई के अनुमान लगा सकता है, जिससे कोई मानवीय टैगिंग की आवश्यकता नहीं होती है, जिससे बड़े पैमाने पर विविध प्रशिक्षण डेटा के निर्माण की अनुमति मिलती है। इस लाइन के आधार पर, हुनयुआनवर्ल्ड-वॉयेजर वास्तविक दुनिया संग्रह और असली इंजन रेंडरिंग वीडियो संसाधनों के संयोजन के साथ एक बड़े पैमाने पर डेटा सेट के निर्माण में शामिल हो गया, जिसमें 10,000 से अधिक वीडियो टुकड़े शामिल हैं।

प्रयोग मूल्यांकन में, हुनयुआनवर्ल्ड-वॉयेजर वीडियो उत्पादन गुणवत्ता में उत्कृष्ट प्रदर्शन किया। चार ओपन सोर्स कैमरा नियंत्रित वीडियो उत्पादन विधियों के साथ तुलना की गई, जिसके परिणाम सभी मॉडल के लिए PSNR, SSIM और LPIPS जैसे सूचकांक में बेहतर रहे, जिससे इसकी अतुलनीय वीडियो उत्पादन गुणवत्ता की पुष्टि हुई। साथ ही, स्थान पुनर्निर्माण में, हुनयुआनवर्ल्ड-वॉयेजर के उत्पादित वीडियो भी ज्यामितीय संगतता में बेहतर प्रदर्शन करते हैं।

इसके अलावा, हुनयुआनवर्ल्ड-वॉयेजर वर्ल्डस्कोर स्थिर बेंचमार्क परीक्षण में उच्चतम अंक प्राप्त किया, जिससे इसके कैमरा गति नियंत्रण और अंतरिक्ष संगतता में शीर्ष गुणों की पुष्टि हुई। यह परिणाम मिश्रित विश्व मॉडल के संभावनाओं को दर्शाता है, और भविष्य के 3D स्थान उत्पादन प्रौद्योगिकी के लिए नए रास्ते खोलता है।

मुख्य बिंदु:

🌍 हुनयुआनवर्ल्ड-वॉयेजर एकल प्रवेश छवि के आधार पर विश्व संगत 3D बिंदु बादल उत्पन्न कर सकता है, जो उपयोगकर्ताओं के लिए अंतर्निहित अनुभव के लिए समर्थन प्रदान करता है।  

🎥 इस मॉडल ने ठीक संरेखित गहराई जानकारी और RGB वीडियो दोनों के उत्पादन में सक्षम बनाया है, जो उच्च गुणवत्ता वाले 3D पुनर्निर्माण के लिए उपयोग किया जा सकता है।  

🏆 कई परीक्षणों में, हुनयुआनवर्ल्ड-वॉयेजर वीडियो उत्पादन गुणवत्ता और स्थान पुनर्निर्माण प्रभाव में अन्य मॉडल से बेहतर रहा।