कंप्यूटर दृश्यता के क्षेत्र में, एकल छवि 3D पुनर्निर्माण तकनीक द्विविमीय छवि से त्रि-आयामी वस्तुओं के आकार और संरचना को बहाल करने की क्षमता के कारण एक ध्यान आकर्षित करने वाला अनुसंधान क्षेत्र बन गया है। हाल ही में, प्रसिद्ध ओपन-सोर्स बड़े मॉडल प्लेटफॉर्म Stability-AI ने SPAR3D नामक एक नवाचार मॉडल लॉन्च किया है, जिसके कारण इस तकनीक के कार्यान्वयन की गति अब 0.7 सेकंड तक पहुंच गई है, जो उद्योग में बड़े परिवर्तन ला रहा है।
एकल छवि 3D पुनर्निर्माण कई चुनौतियों का सामना करता है, जिनके मुख्य तकनीकी मार्ग रिग्रेशन आधारित विधियां और जनक मॉडलिंग विधियां हैं। रिग्रेशन आधारित विधियां दृश्य सतह के अनुमान लगाने में अधिक कुशल होती हैं, लेकिन अवरोधन क्षेत्रों के साथ काम करते समय अक्सर सतह और टेक्स्चर अनुमान में असंगतता होती है। जबकि जनक विधियां अनिश्चितता क्षेत्रों के साथ बेहतर तरीके से निपट सकती हैं, लेकिन उनकी गणना लागत उच्च होती है और उत्पादित परिणाम दृश्य सतह के साथ अच्छी तरह से समायोजित नहीं होते।
SPAR3D इन दोनों तकनीकों के फायदों के संयोजन के माध्यम से, अपनी सीमाओं को दूर करके पुनर्निर्माण की गति और सटीकता में महत्वपूर्ण सुधार करता है।
SPAR3D की संरचना: दक्ष बिंदु नमूनाकरण और ग्रिडिंग
SPAR3D की संरचना दो मुख्य चरणों से बनी है: बिंदु नमूनाकरण चरण और ग्रिडिंग चरण।
बिंदु नमूनाकरण चरण : इस चरण का केंद्र बिंदु फैलाव मॉडल है, जो दिए गए द्विविमीय छवि से घने बिंदु बादल उत्पन्न कर सकता है, जिसमें XYZ निर्देशांक और RGB रंग जानकारी शामिल है। DDPM (Denoising Diffusion Probabilistic Models) फ्रेमवर्क का उपयोग किया गया है, जो अतिरिक्त गॉसियन शोर और डिनॉइजिंग रिवर्स प्रक्रिया के माध्यम से, शोर वाले बिंदु बादल से शोर को बहाल करने के लिए सीखता है। अनुमान के दौरान, DDIM (Denoising Diffusion Implicit Models) सैंपलर का उपयोग बिंदु बादल नमूने उत्पन्न करने के लिए किया जाता है, और वर्गीकरण मुक्त गाइडेंस (CFG) के माध्यम से सैंपलिंग की विश्वसनीयता बढ़ाई जाती है।
ग्रिडिंग चरण : इस चरण का उद्देश्य छवि और बिंदु बादल से टेक्स्चर वाला त्रि-आयामी ग्रिड उत्पन्न करना है। SPAR3D बड़े तीन तल Transformer का उपयोग करता है, जो छवि और बिंदु बादल से तीन तल विशेषताएं पूर्वानुमान कर सकता है, जिसके आधार पर वस्तु के ज्यामितीय आकार, टेक्स्चर और रोशनी का अनुमान लगाया जाता है। प्रशिक्षण के दौरान, रेंडरिंग नुकसान के माध्यम से एक डिफरेंटिएबल रेंडरर का उपयोग करके मॉडल को सुदृढ़ किया जाता है, जिससे उत्पादित परिणाम की वास्तविकता और गुणवत्ता सुनिश्चित की जाती है।
अद्भुत कार्यक्षमता: पारंपरिक विधियों के ऊपर
GSO और OmniObject3D डेटा सेट पर परीक्षण में, SPAR3D कई मूल्यांकन मापदंडों पर पारंपरिक रिग्रेशन और जनक बेसलाइन विधियों की तुलना में निश्चित रूप से बेहतर प्रदर्शन करता है। उदाहरण के लिए, GSO डेटा सेट में, SPAR3D का CD (Chamfer Distance) मान 0.120 है, FS@0.1 0.584 है, PSNR (Peak Signal-to-Noise Ratio) 18.6 है, जबकि अन्य विधियों का प्रदर्शन तुलनात्मक रूप से कमजोर है। OmniObject3D डेटा सेट में, SPAR3D एक ही तरह से अद्भुत प्रदर्शन दर्शाता है, CD मान 0.122, FS@0.1 0.587 और PSNR 17.9 है।
इन परिणामों से स्पष्ट है कि SPAR3D ज्यामितीय आकार और टेक्स्चर गुणवत्ता में अद्भुत प्रदर्शन करता है, जो वास्तविक अनुप्रयोगों में इसके संभावना को दर्शाता है।
निष्कर्ष: ओपन-सोर्स तकनीक के भविष्य
तकनीक के लगातार विकास और अनुप्रयोग के क्षेत्र के विस्तार के साथ, SPAR3D निश्चित रूप से कंप्यूटर दृश्यता और 3D पुनर्निर्माण के क्षेत्र में महत्वपूर्ण भूमिका निभाएगा। विकासकर्ताओं और अनुसंधानकर्ताओं के लिए, SPAR3D की ओपन-सोर्स प्रकृति अधिक नवाचार और अनुप्रयोग संभावनाओं को संदर्भित करती है।
ओपन-सोर्स लिंक: https://github.com/Stability-AI/stable-point-aware-3d
Huggingface: https://huggingface.co/stabilityai/stable-point-aware-3d