हाल ही में सीड टीम ने 3D जनरेशन बड़ा मॉडल सीड3डी1.0 के लॉन्च की घोषणा की, जो एक छवि से एंड-टू-एंड उच्च गुणवत्ता सिमुलेशन स्तर के 3D मॉडल बनाने में सक्षम है, जिसमें विस्तृत ज्यामिति, वास्तविक टेक्स्चर और फिजिक्स-आधारित रेंडरिंग (PBR) सामग्री शामिल है। यह अभिनव प्राप्ति शारीरिक बुद्धिमत्ता के विकास के लिए एक शक्तिशाली दुनिया सिमुलेटर समर्थन प्रदान करने में सक्षम होगी, और वर्तमान प्रौद्योगिकी में भौतिक अंतरक्रिया क्षमता और सामग्री विविधता के मुद्दों को हल करेगी।
विकास प्रक्रिया में, सीड टीम ने बड़े पैमाने पर उच्च गुणवत्ता वाले 3D डेटा एकत्र किया और संसाधित किया, जिससे पूर्ण तीन चरण डेटा संसाधन पाइपलाइन बनाई गई, जिससे बहुत बड़े असमान मूल 3D डेटा को उच्च गुणवत्ता वाले शिक्षण सेट में बदल दिया गया। सीड3डी1.0 डिफ्यूज़न ट्रांसफॉर्मर संरचना पर आधारित मॉडल का उपयोग करता है, जो एंड-टू-एंड तकनीकी रास्ता अपनाकर एक छवि से सिमुलेशन स्तर के 3D मॉडल तक तेजी से उत्पादन करता है। इस मॉडल की ज्यामिति उत्पादन में उत्कृष्ट प्रदर्शन होता है, जो संरचना विवरण के ठीक से निर्माण करता है और भौतिक पूर्णता को सुनिश्चित करता है; टेक्स्चर मैप उत्पादन में, बहुमाध्यम डिफ्यूज़न ट्रांसफॉर्मर संरचना के माध्यम से अलग-अलग दृश्यों में एकरूपता सुनिश्चित की जाती है; PBR सामग्री उत्पादन में, अंदाजा लगाने के ढांचे का उपयोग करके सामग्री अंदाजा लगाने की सटीकता बढ़ाई जाती है।
सीड3डी1.0 की उत्पादन क्षमता कई तुलनात्मक मूल्यांकनों में उल्लेखनीय लाभ दिखाती है। ज्यामिति उत्पादन में, 1.5बी पैरामीटर वाला सीड3डी1.0 उद्योग में 3बी पैरामीटर वाले मॉडल से आगे रहता है, जो जटिल वस्तुओं के विस्तृत विवरण को अधिक सटीकता से बहाल कर सकता है। टेक्स्चर सामग्री उत्पादन में, सीड3डी1.0 रेफरेंस छवि बरकरार रखने में अच्छा प्रदर्शन करता है, विशेष रूप से विस्तृत पाठ उत्पादन और मनुष्य उत्पादन में लाभ होता है। मानव मूल्यांकन परिणामों के अनुसार, सीड3डी1.0 को ज्यामिति गुणवत्ता, सामग्री टेक्स्चर, दृश्य स्पष्टता और विवरण की विविधता के कई मापदंडों में अच्छा आंकड़ा मिला।
सीड3डी1.0 एक वस्तु के 3D मॉडल के अलावा, पूर्ण 3D दृश्य बनाने के लिए चरण-दर-चरण उत्पादन रणनीति का उपयोग कर सकता है। उत्पादित 3D मॉडल आसानी से आइसैक सिम जैसे सिमुलेशन इंजन में डाले जा सकते हैं, जिससे शारीरिक बुद्धिमत्ता बड़े मॉडल शिक्षण के लिए केवल कुछ अनुकूलन कार्य करने के बाद समर्थन प्रदान कर सकते हैं। इस क्षमता ने रोबोट शिक्षण के लिए विविध ऑपरेशन स्थिति प्रदान की है, अंतरक्रियात्मक अधिग्रहण को संभव बनाया है, और दृश्य-भाषा-क्रिया मॉडल के लिए व्यापक मूल्यांकन आधार बनाया है।
हालांकि सीड3डी1.0 तीन आयामी मॉडल और दृश्य उत्पादन में अच्छी क्षमता दिखाता है, लेकिन सीड टीम भी यह समझती है कि 3D जनरेशन बड़ा मॉडल के आधार पर दुनिया मॉडल बनाने में उत्पादन सटीकता और सामान्यीकरण की आवश्यकता है। भविष्य में, टीम बहुमाध्यम बड़ा भाषा मॉडल (MLLM) के उपयोग के माध्यम से 3D जनरेशन की गुणवत्ता और विश्वसनीयता में सुधार करने के प्रयास करेगी और 3D जनरेशन मॉडल के विश्व सिमुलेटर में बड़े पैमाने पर अनुप्रयोग को आगे बढ़ाएगी।
परियोजना घर:
https://seed.bytedance.com/seed3d
अनुभव प्रवेश बिंदु:
https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?modelId=doubao-seed3d-1-0-250928&tab=Gen3D