जीएन एनविज़नर (GE) के साथ, चीन में शंघाई में वास्तविक दुनिया के रोबोट कंट्रोल के लिए एक एकीकृत वर्ल्ड मॉडल प्लेटफॉर्म पेश किया गया है। इस नवाचार प्लेटफॉर्म ने पारंपरिक रोबोट अध्ययन प्रणालियों के चरण-दर-चरण विकास के माडल को तोड़ दिया है और भविष्य के फ्रेम पूर्वानुमान, रणनीति अध्ययन और सिमुलेशन मूल्यांकन को वीडियो जनरेशन के केंद्र में आवर्त ढांचे में एकीकृत किया है, जिससे रोबोट "देखने", "सोचने" और "कार्य करने" तक बिना बीच के तर्क और कार्यान्वयन होता है। 3000 घंटे के वास्तविक रोबोट कंट्रोल वीडियो डेटा के आधार पर, GE के अंतर-प्लेटफॉर्म व्यापकता और लंबे समय तक के कार्य करने में बहुत लाभ है, जो शारीरिक बुद्धिमत्ता के विकास के लिए दृश्य समझ से कार्यान्वयन तक एक नई तकनीकी मार्ग के रूप में खोलता है।

GE के मुख्य अभियान एक विश्व मॉडल के आधार पर दृश्य केंद्रित मॉडलिंग प्रतिमान बनाने में है। विज़ुअल-लैंग्वेज-एक्शन (VLA) विधि के मुख्य अभियान के विपरीत, GE दृश्य स्थान में रोबोट और वातावरण के बीच बातचीत के डायनामिक के मॉडलिंग करता है, जो नियंत्रण प्रक्रिया में स्थानीय संरचना और समय विकास सूचना को पूर्ण रूप से बरकरार रखता है। इस मॉडलिंग प्रतिमान ने GE को उच्च दक्षता वाली अंतर-बॉडी व्यापकता क्षमता प्रदान की है, जिससे इसे बहुत कम डेटा में अंतर-प्लेटफॉर्म परिवर्तन करने में सक्षम बनाता है, और लंबे समय तक के कार्य करने में बहुत लाभ है। उदाहरण के लिए, पेपर बॉक्स के मुड़ा हुआ कार्य में, GE-Act की सफलता वर्तमान उत्कृष्ट विधियों से बहुत अधिक है।

微信截图_20250814165048.png

GE प्लेटफॉर्म तीन घनिष्ठ रूप से एकीकृत घटकों - GE-Base, GE-Act और GE-Sim से बना है। GE-Base प्लेटफॉर्म का मुख्य आधार है, जिसमें स्व-प्रेरित वीडियो जनरेशन फ्रेमवर्क का उपयोग किया गया है, जिसमें बहु-दृष्टिकोण जनरेशन क्षमता और दुर्लभ स्मृति तंत्र है, जो बहु-पथ दृष्टिकोण इनपुट के नियंत्रण स्थिति के साथ निपट सकता है और यादृच्छिक रूप से ऐतिहासिक फ्रेम के चयन द्वारा लंबे समय तक के तर्क क्षमता में सुधार करता है। GE-Act एक बिना-समय लगाए एक्शन मॉड्यूल है, जो एक हल्के आर्किटेक्चर के माध्यम से दृश्य संभावित प्रतिनिधित्व को कार्यान्वयन योग्य रोबोट नियंत्रण निर्देश में बदलता है, और असमान तर्क अवधि के माध्यम से उच्च दक्षता वाले वास्तविक समय नियंत्रण को सुनिश्चित करता है। GE-Sim वीडियो जनरेशन क्षमता के विस्तार के रूप में एक्शन शर्तों पर न्यूरल सिमुलेशनर बनाता है, जो एक अनुक्रमिक एक्शन शर्तों में बनाया गया है जो निर्देशित दृश्य पूर्वानुमान के सटीकता को सुनिश्चित करता है, बंद-लूप रणनीति मूल्यांकन का समर्थन करता है, और विविध प्रशिक्षण डेटा उत्पन्न करने के लिए डेटा इंजन के रूप में कार्य करता है।

इसके अलावा, जीएन रोबोटिक्स टीम ने एक एमबीएंच आकलन सेट विकसित किया, जो शारीरिक कार्य के लिए विश्व मॉडल की गुणवत्ता के मूल्यांकन के लिए है। कई उन्नत मॉडलों के साथ तुलना में, GE-Base कई महत्वपूर्ण सूचकांक में शीर्ष प्राप्त करता है और मानव निर्णय से बहुत मेल खाता है। जीएन रोबोटिक्स ने GE के सभी कोड, पूर्व-प्रशिक्षित मॉडल और आकलन उपकरणों के ओपन सोर्स करने की योजना बनाई है, जो रोबोट के निष्पादन से सक्रिय "कल्पना-परीक्षण-कार्य" के रूप में बदलाव को बढ़ावा देता है। भविष्य में, GE कई अतिरिक्त सेंसर मोड में विस्तारित करेगा, पूर्ण गतिशीलता और मानव-रोबोट सहयोग का समर्थन करेगा, और मशीनिंग और सेवा रोबोट के लागू करने में लगातार आगे बढ़ेगा।

🔹 प्रोजेक्ट पृष्ठ

https://genie-envisioner.github.io/ 

🔹 Arxiv

https://arxiv.org/abs/2508.05635 

🔹गिटहब

https://github.com/AgibotTech/Genie-Envisioner