रोबोटिक्स के क्षेत्र में, आर्टिफिशियल इंटेलिजेंस को वास्तविक त्रि-आयामी दुनिया को वास्तव में "देखना" सीखना हमेशा एक चुनौती रहा है। पारंपरिक विजुअल लैंग्वेज मॉडल (VLA) अधिकांश द्वि-आयामी छवियों और पाठ डेटा के साथ प्रशिक्षित होते हैं, जो वास्तविक वातावरण में त्रि-आयामी अंतर को समझने में कठिनाई का कारण बनते हैं। हालांकि, शंघाई जियाओतोंग विश्वविद्यालय और कैम्ब्रिज विश्वविद्यालय के एक अनुसंधान दल द्वारा हाल ही में एक नए एंहांस्ड विजुअल लैंग्वेज एक्शन मॉडल, Evo-0 का अवमंडन किया गया है, जो 3D ज्यामितीय पूर्वाग्रह को हल्के ढंग से डालकर रोबोट के जटिल कार्यों में अंतर के बोध क्षमता में उल्लेखनीय सुधार करता है।

Evo-0 मॉडल की नवाचार इस बात में है कि यह विजुअल ज्यामितीय बेसलाइन मॉडल (VGGT) का उपयोग बहु-दृष्य के आरजीबी छवियों से त्रि-आयामी संरचना सूचना निकालने के लिए करता है और इन जानकारी को पहले से मौजूद विजुअल लैंग्वेज मॉडल के साथ जोड़ता है। इस तरीका से, अतिरिक्त सेंसर या स्पष्ट गहराई इनपुट के उपयोग की आवश्यकता को बचाया जाता है और अंतर के ज्ञान क्षमता में उल्लेखनीय सुधार होता है। RLBench संमूह परीक्षण में, Evo-0 की सफलता दर पारंपरिक मॉडल pi0 से 15% अधिक रही और openvla-oft पर 31% तक बढ़ गई।

image.png

विशेष रूप से, Evo-0 VGGT के रूप में अंतर एन्कोडर का उपयोग करता है, जिसमें VGGT से निकाले गए t3^D token शामिल हैं, जो गहराई संदर्भ और अंतर संबंध जैसी ज्यामितीय सूचना को समाहित करते हैं। एक आर्थोगोनल ध्यान संयोजन मॉड्यूल के माध्यम से, मॉडल द्वि-आयामी दृश्य टोकन और त्रि-आयामी टोकन के बीच एक प्रभावी संयोजन कर सकता है, जो अंतर व्यवस्था और वस्तुओं के संबंध के बोध क्षमता में सुधार करता है। इस तरीका से, प्रशिक्षण की दक्षता के साथ साथ लचीलापन और डेप्लॉयमेंट की सुविधा भी बढ़ गई।

वास्तविक दुनिया में परीक्षण में, Evo-0 जटिल अंतर कार्यों के निपटान में अच्छा प्रदर्शन करता है, जैसे लक्ष्य के केंद्र में रखना, छिद्र में डालना, घनी फंसाना आदि, जो पारंपरिक मॉडल से अधिक हैं, औसत सफलता दर में 28.88% की वृद्धि हुई। विशेष रूप से जटिल अंतर संबंधों के बोध और नियंत्रण क्षमता में, Evo-0 को उल्लेखनीय लाभ मिला।

इस प्रकार, Evo-0 अंतर सूचना के चालाक संयोजन द्वारा भविष्य के सामान्य रोबोटिक्स रणनीति के लिए एक नई व्यवहार्य पथ प्रदान करता है। इस अनुसंधान परिणाम न केवल विश्वविद्यालय में व्यापक रुचि के कारण रहा है, बल्कि रोबोटिक्स के क्षेत्र में वास्तविक अनुप्रयोगों के लिए नई संभावनाएं भी प्रदान करता है।

पेपर का पता: https://arxiv.org/pdf/2507.00416