कंप्यूटर दृश्यता और ग्राफिक्स में, 3D आकृतियों की परिभाषात्मकता एक महत्वपूर्ण और मौलिक संशोधन क्षेत्र है। जटिल 3D आकृतियों को सरल ज्यामितीय इकाइयों में विघटित करने के माध्यम से, शोधकर्ताओं को मनुष्य दृष्टि संवेदन के यंत्रण की व्याख्या करने में मदद मिलती है।

QQ_1747013398902.png

हालाँकि, वर्तमान में उपलब्ध 3D उत्पादन विधियाँ आमतौर पर रोबोटिक ऑपरेशन या स्थिति समझ जैसे कार्यों के लिए भाषागत गहराई और स्पष्टता की आवश्यकताओं को पूरा नहीं कर पातीं। पारंपरिक आकृति विस्तार विधियाँ अक्सर बहुत अधिक विभाजित होने या सामान्यीकरण की कमजोरी का सामना करती हैं।

PrimitiveAnything: क्रांतिकारी फ़्रेमवर्क

तेंग एआईपीडी (Tencent AIPD) और चीन विश्वविद्यालय के शोध टीम ने PrimitiveAnything फ़्रेमवर्क को लॉन्च किया है, जिसका उद्देश्य 3D आकृतियों को सरल आकृतियों के विकल्प में पुनर्निर्मित करना है। इस फ़्रेमवर्क का उपयोग डिकोडर बेस्ड ट्रांसफ़ॉर्मर का करता है, जो आकृति विशेषताओं के आधार पर बदलने वाले सरल आकृतियों की लंबाई वाली श्रृंखला बनाने में सक्षम है, जिससे ज्यामितिक सटीकता और सीखने की क्षमता में बड़ी वृद्धि होती है।

PrimitiveAnything का केंद्रीय भाग उसके एकीकृत और अस्पष्टता रहित पैरामीटर योजना पर निर्भर करता है, जो विभिन्न प्रकार की सरल आकृतियों का समर्थन करती है। इस नवाचार से, इस फ़्रेमवर्क को जटिल आकृतियों को सरल आकृतियों में कैसे विघटित किया जाता है, वह बेहतर तरीके से मानवीय समझ के अनुरूप होता है।

QQ_1747013363011.png

स्वचालित पश्चाताप पूर्वाग्रह: कुशल पुनर्निर्माण

PrimitiveAnything इनपुट आकृति को स्वचालित पश्चाताप विधि से पुनर्निर्मित करता है। प्रत्येक सरल आकृति के प्रकार, स्थिति, घूर्णन और स्केलिंग आदि गुणधर्म ट्रांसफ़ॉर्मर में इनपुट के रूप में कोडित किए जाते हैं ताकि अगली सरल आकृति का पूर्वाग्रह बनाया जा सके। इस फ़्रेमवर्क ने अनुक्रमित डिकोडर का उपयोग किया है जो गुणधर्मों के बीच आपसी आश्रिति को मॉडल करता है, जिससे पुनर्निर्माण प्रक्रिया एकसाथ रहती है।

प्रशिक्षण के दौरान, PrimitiveAnything ने क्रॉसएंट्रॉपी नुकसान, चैम्फर दूरी (पुनर्निर्माण की सटीकता के लिए), और गंबल सॉफ्टमैक्स (अव्यावहारिक नमूने के लिए) का संयोजन किया है, जब तक कि एक समाप्ति चिह्न तक पहुँच नहीं जाता है। इस प्रक्रिया के तहत, जटिल 3D आकृतियों को मानवीय ढंग से विभाजित किया जा सकता है।

मानव सरल आकृति डेटासेट: सम्पूर्ण परीक्षण

इस फ़्रेमवर्क की प्रभावशीलता को सत्यापित करने के लिए, शोध टीम ने एक बड़ा मानवप्रिम (HumanPrim) डेटासेट बनाया है, जिसमें 1.2 लाख नमूने और मौखिक निर्माण श्रृंखला हैं। इसकी मूल्यांकन द्वारा, PrimitiveAnything ने चैम्फर दूरी, एर्थ मोवर्ड दूरी, हाउसडोर्फ़ दूरी आदि के कई मापों पर अच्छा प्रदर्शन दिखाया है। PrimitiveAnything ने पुनर्निर्माण की सटीकता और मानवीय विषय पैटर्न के साथ समर्थन में अच्छा परिणाम प्राप्त किया है।

इसके अलावा, यह फ़्रेमवर्क टेक्स्ट या इमेज से 3D सामग्री उत्पन्न करने में सक्षम है, जिससे उपयोगकर्ता उत्पन्न परिणाम को सरलता से संपादित कर सकता है। यह उच्च डिजाइनिंग क्षमता प्रदान करता है और 95% से अधिक आंतरिक स्टोरेज की बचत करता है, जो एक्सींटिवी 3D अनुप्रयोगों के लिए बहुत लाभदायक है।

निष्कर्ष: कुशल और सुविधाजनक 3D उत्पादन

PrimitiveAnything फ़्रेमवर्क द्वारा 3D आकृतियों को श्रृंखला उत्पादन के कार्य के रूप में देखा जाता है, जिससे मानवीय डिजाइन की सरल आकृतियों का उपयोग किया जाता है। यह प्रणाली देखने वाले विभाजन पैटर्न को काफी अच्छी तरह से पकड़ती है। यह फ़्रेमवर्क विभिन्न प्रकार के वस्तुओं के लिए उच्च गुणवत्ता के उत्पादन को साक्षी देता है, जो उसकी मजबूत सामान्यीकरण क्षमता को साबित करता है।

उच्च प्रदर्शन और सरलता के गुणों के कारण, PrimitiveAnything खेल जैसे उपयोगकर्ता उत्पादन अनुप्रयोगों के लिए बहुत उपयोगी है।

demo: https://huggingface.co/spaces/hyz317/PrimitiveAnything