जीएन एनविज़नर (GE) के साथ, चीन में शंघाई में वास्तविक दुनिया के रोबोट कंट्रोल के लिए एक एकीकृत वर्ल्ड मॉडल प्लेटफॉर्म पेश किया गया है। इस नवाचार प्लेटफॉर्म ने पारंपरिक रोबोट अध्ययन प्रणालियों के चरण-दर-चरण विकास के माडल को तोड़ दिया है और भविष्य के फ्रेम पूर्वानुमान, रणनीति अध्ययन और सिमुलेशन मूल्यांकन को वीडियो जनरेशन के केंद्र में आवर्त ढांचे में एकीकृत किया है, जिससे रोबोट "देखने", "सोचने" और "कार्य करने" तक बिना बीच के तर्क और कार्यान्वयन होता है। 3000 घंटे के वास्तविक रोबोट कंट्रोल वीडियो डेटा के आधार पर, GE के अंतर-प्लेटफॉर्म व्यापकता और लंबे समय तक के कार्य करने में बहुत लाभ है, जो शारीरिक बुद्धिमत्ता के विकास के लिए दृश्य समझ से कार्यान्वयन तक एक नई तकनीकी मार्ग के रूप में खोलता है।
GE के मुख्य अभियान एक विश्व मॉडल के आधार पर दृश्य केंद्रित मॉडलिंग प्रतिमान बनाने में है। विज़ुअल-लैंग्वेज-एक्शन (VLA) विधि के मुख्य अभियान के विपरीत, GE दृश्य स्थान में रोबोट और वातावरण के बीच बातचीत के डायनामिक के मॉडलिंग करता है, जो नियंत्रण प्रक्रिया में स्थानीय संरचना और समय विकास सूचना को पूर्ण रूप से बरकरार रखता है। इस मॉडलिंग प्रतिमान ने GE को उच्च दक्षता वाली अंतर-बॉडी व्यापकता क्षमता प्रदान की है, जिससे इसे बहुत कम डेटा में अंतर-प्लेटफॉर्म परिवर्तन करने में सक्षम बनाता है, और लंबे समय तक के कार्य करने में बहुत लाभ है। उदाहरण के लिए, पेपर बॉक्स के मुड़ा हुआ कार्य में, GE-Act की सफलता वर्तमान उत्कृष्ट विधियों से बहुत अधिक है।
GE प्लेटफॉर्म तीन घनिष्ठ रूप से एकीकृत घटकों - GE-Base, GE-Act और GE-Sim से बना है। GE-Base प्लेटफॉर्म का मुख्य आधार है, जिसमें स्व-प्रेरित वीडियो जनरेशन फ्रेमवर्क का उपयोग किया गया है, जिसमें बहु-दृष्टिकोण जनरेशन क्षमता और दुर्लभ स्मृति तंत्र है, जो बहु-पथ दृष्टिकोण इनपुट के नियंत्रण स्थिति के साथ निपट सकता है और यादृच्छिक रूप से ऐतिहासिक फ्रेम के चयन द्वारा लंबे समय तक के तर्क क्षमता में सुधार करता है। GE-Act एक बिना-समय लगाए एक्शन मॉड्यूल है, जो एक हल्के आर्किटेक्चर के माध्यम से दृश्य संभावित प्रतिनिधित्व को कार्यान्वयन योग्य रोबोट नियंत्रण निर्देश में बदलता है, और असमान तर्क अवधि के माध्यम से उच्च दक्षता वाले वास्तविक समय नियंत्रण को सुनिश्चित करता है। GE-Sim वीडियो जनरेशन क्षमता के विस्तार के रूप में एक्शन शर्तों पर न्यूरल सिमुलेशनर बनाता है, जो एक अनुक्रमिक एक्शन शर्तों में बनाया गया है जो निर्देशित दृश्य पूर्वानुमान के सटीकता को सुनिश्चित करता है, बंद-लूप रणनीति मूल्यांकन का समर्थन करता है, और विविध प्रशिक्षण डेटा उत्पन्न करने के लिए डेटा इंजन के रूप में कार्य करता है।
इसके अलावा, जीएन रोबोटिक्स टीम ने एक एमबीएंच आकलन सेट विकसित किया, जो शारीरिक कार्य के लिए विश्व मॉडल की गुणवत्ता के मूल्यांकन के लिए है। कई उन्नत मॉडलों के साथ तुलना में, GE-Base कई महत्वपूर्ण सूचकांक में शीर्ष प्राप्त करता है और मानव निर्णय से बहुत मेल खाता है। जीएन रोबोटिक्स ने GE के सभी कोड, पूर्व-प्रशिक्षित मॉडल और आकलन उपकरणों के ओपन सोर्स करने की योजना बनाई है, जो रोबोट के निष्पादन से सक्रिय "कल्पना-परीक्षण-कार्य" के रूप में बदलाव को बढ़ावा देता है। भविष्य में, GE कई अतिरिक्त सेंसर मोड में विस्तारित करेगा, पूर्ण गतिशीलता और मानव-रोबोट सहयोग का समर्थन करेगा, और मशीनिंग और सेवा रोबोट के लागू करने में लगातार आगे बढ़ेगा।
🔹 प्रोजेक्ट पृष्ठ
https://genie-envisioner.github.io/
🔹 Arxiv
https://arxiv.org/abs/2508.05635
🔹गिटहब
https://github.com/AgibotTech/Genie-Envisioner