हाल ही में, एक ब्लैक टेक्नोलॉजी हमारे 3डी विश्व बनाने के विचार को पूरी तरह से बदल दिया है! प्रिंसटन विश्वविद्यालय, कोलंबिया विश्वविद्यालय और एक कंपनी जिसका नाम Cyberever AI है, ने एक नाम है 3DTown के साथ एक संधि घोषित की है। इसका नाम सुनकर ही पता चल जाता है कि यह आपकी मदद करेगा 3डी शहरों को बनाने के लिए! यह क्या है जो वास्तव में ख़ास है? यह बस एक ऊपर से देखने वाली चित्र से भी बेहतर एक वास्तविक और संतत एक 3डी शहर की परिस्थिति बना सकता है! और यह एक ट्रेनिंग-फ्री (ट्रेनिंग की जरूरत नहीं) फ़्रेमवर्क है, जिसका मतलब है कि आपको अपने पास लाखों 3डी डेटा को ट्रेन करने की ज़रूरत नहीं होगी, बस इसे चला सकते हैं!
पेपर का लिंक: https://arxiv.org/pdf/2505.15765
प्रोजेक्ट का लिंक: https://eric-ai-lab.github.io/3dtown.github.io/
पारंपरिक 3डी मॉडलिंग? यह पिछले युग का "शारीरिक काम" था!
आपको लगता है कि एक उच्च गुणवत्ता वाली 3डी स्थिति बनाना, विशाल कंपनियों और टीमों के लिए एक "खराब धन खेल" है? वास्तव में ऐसा ही है:
डिवाइस बहुत महंगा है: अपने से दस लाख तक लाखों रुपये के 3डी स्कैनिंग डिवाइस, एक साधारण व्यक्ति के पास नहीं हो सकते।
डेटा बहुत ज्यादा है: विभिन्न कैमरे कोणों से डेटा एकत्र करने की ज़रूरत होती है, अन्यथा मॉडल में बहुत सारे "अंधेरे" हो जाएंगे।
मानव बनावट बहुत मुश्किल हो जाती है: समय और ऊर्जा बहुत ज़रूरी होती है, एक छोटा सा बिंदु बनाने के लिए बुरी तरह से टेक कर सकते हैं।
इसलिए, अधिकांश लोग 3डी से दूर रहते हैं। हाल ही में AI की पहल के अनुसार 3डी ऑब्जेक्ट्स के निर्माण में महत्वपूर्ण प्रगति हुई है, लेकिन पूरी जटिल स्थिति का निर्माण करने के लिए, यह "चरणों में बदहाली" है, और बार-बार "वाहसी" होने की स्थितियाँ बन जाती हैं:
ज्यादा असंगति: बनाए गए इमारतें टिक-टोक हो जाती हैं, जैसे कि वो कोई एकजुट नहीं है।
स्थान बनाए रखने की कमज़ोरी: इनपुट चित्र के साथ पूरी तरह से मिल नहीं पाती, इमारतों की कल्पना बहुत अधिक बढ़ जाती है।
मेजबान गुणवत्ता बुरी है: मॉडल की विस्तृत जानकारी खराब होती है, और टेक्स्ट्यूर भी अच्छा नहीं होता।
3DTown: "एक छवि से एक शहर बनाने वाली जादूगर!"
अब, 3DTown इन समस्याओं का हल करने आ रहा है! इसका मुख्य धारणा यह है कि आपको सबसे कम प्रवेश (एक ऊपर से देखने वाली छवि) के साथ सबसे अच्छा 3डी स्थिति बनाने की ज़रूरत है। कल्पना करें, आप किसी वेबसाइट से किसी बर्फ के शहर की ऊपर से देखने वाली छवि या अपने हाथ से एक हालेन्ड शैली के शहर का चित्र बनाएं, और उसे 3DTown में डाल दें, तो वह आपको एक वास्तविक लगने वाला 3डी मॉडल बना देगा!
उसे यह "जादू" कैसे मिल रहा है? इसका उत्तर इसके दो "ब्लैक टेक्नोलॉजी" में है:
क्षेत्र उत्पादन: पूरी तरह से विभाजित करें, एक-एक करके सुलझाएं!
आपने कभी सोचा है कि एक जटिल 3डी स्थिति को बस एक AI को एक साथ बनाना है, तो कितना मुश्किल होगा। 3DTown बहुत चतुर है, यह "पूरी तरह से विभाजित करने" की रणनीति अपनाता है। यह इनपुट ऊपर से देखने वाली छवि को overlapping (आपस में जुड़े) क्षेत्रों में विभाजित कर लेता है, और प्रत्येक क्षेत्र को अलग-अलग 3डी उत्पादन करता है। यह जैसे कि एक बड़ी पज़ल को पहले छोटे-छोटे पज़लों में बांट लिया जाए, और फिर AI को बार-बार पहले एक पहिला बनाने की स्वीकृति कर लें। इसके लाभ यहाँ दिखाई देते हैं:
रिझोल्यूशन और विवरण में सुधार: प्रत्येक क्षेत्र अलग-अलग है, AI अपनी ऊर्जा केंद्रित कर सकता है उच्च रिझोल्यूशन ज्यामितीय संरचना और टेक्स्टर बनाने के लिए, विवरण अधिक होता है।
छवि से 3डी स्ट्रक्चर को सटीक करने में सुधार: क्षेत्र के प्रत्येक भाग को अलग-अलग बनाया जाता है, इसलिए AI छवि के विस्तृत विवरण को सटीकता से समझता है, बनाए गए 3डी मॉडल भी प्राप्त छवि के अनुरूप होते हैं।
स्थान समझवाला 3डी रिपेयर: बिंदुओं को पूरा करने के लिए!
“पूरी तरह से विभाजित करना” अच्छा है, लेकिन यह नई समस्या भी बनाता है: इन अलग-अलग उत्पादित क्षेत्रों को कैसे पूरा किया जाए ताकि एक लगातार, फटाने वाली स्थिति बन जाए? यही 3DTown का दूसरा “ब्लैक टेक्नोलॉजी” है - स्थान समझवाला 3डी रिपेयर (spatial-aware 3D inpainting) है!
इसके पहले, यह इनपुट छवि से लगभग 3डी संरचना का अनुमान लगाता है, जो एक AI के लिए एक “कल्पना” देता है, यह बताता है कि कहाँ इमारतें हैं और कहाँ सड़कें हैं।
फिर, यह masked rectified flow (मास्क किए गए rectified flow) का उपयोग करता है और लापरवाही को जोड़ता है, जबकि पूरे स्ट्रक्चर की जांच करता है। कल्पना करें, यह एक पेशेवर “3डी टाइलर” की तरह है, जो AI के बाद बनाये गए पहिले पहिले का जोड़ आसानी से कर देता है, और यह भी सामान्य स्ट्रक्चर को बिना किसी बदलाव के बनाए रखता है!
ट्रेनिंग की जरूरत नहीं, प्रतिद्वंद्वियों का प्रदर्शन बदल दिया!