हाल ही में गूगल डीपमाइंड ने ब्लॉग पोस्ट प्रकाशित करके नए जेमिनी रोबोटिक्स ऑन-डिवाइस स्थानीय रोबोटिक एआई मॉडल का औपचारिक रूप से लॉन्च किया। इस मॉडल में दृश्य-भाषा-क्रिया (VLA) आर्किटेक्चर का उपयोग किया गया है, जो बाह्य रोबोट के सटीक नियंत्रण को स्थानीय रूप से प्रदान कर सकता है, बिना क्लाउड समर्थन के।

इस नए मॉडल का सबसे बड़ा फायदा रोबोटिक उपकरण पर पूरी तरह से स्वतंत्र रूप से काम करना है, जो कम देरी अभिक्रिया क्षमता प्रदान करता है। इस विशेषता के कारण यह नेटवर्क कनेक्शन अस्थिर होने वाले वातावरणों, जैसे चिकित्सा स्थलों आदि के लिए विशेष रूप से उपयुक्त है।

QQ20250625-093338.png

ऑपरेशन सटीकता के मामले में, यह मॉडल उत्कृष्ट क्षमता दिखाता है, जो बैग के जैकेट को खोलने, कपड़े ढकने, जूते बांधने आदि उच्च जटिलता वाले छोटे कार्य कर सकता है। प्रणाली दो-हाथ डिज़ाइन के साथ आती है, जो अब ALOHA, Franka FR3 और Apollo मानव रूपी रोबोटिक प्लेटफॉर्म के साथ अनुकूलित है।

गूगल विकासकर्ताओं के लिए पूर्ण जेमिनी रोबोटिक्स SDK टूलकिट प्रदान करता है, जो कस्टमाइज़ेशन के प्रवेश बाधा को बहुत कम करता है। विकासकर्ता केवल 50-100 अनुकरण के कार्य प्रदर्शन के माध्यम से रोबोट के लिए नए कार्यक्षमता कस्टमाइज़ कर सकते हैं, और प्रणाली MuJoCo भौतिक संमूहक के साथ पूर्व परीक्षण के लिए समर्थन प्रदान करती है।

QQ20250625-093352.png

सुरक्षा के मामले में, इस प्रणाली ने एक पूर्ण सुरक्षा तंत्र स्थापित किया है। लाइव API के माध्यम से अर्थपूर्ण सुरक्षा जांच के माध्यम से रोबोट के व्यवहार के संगतता को सुनिश्चित किया जाता है, जबकि निम्न सुरक्षा कंट्रोलर अभिक्रिया की तीव्रता और गति के नियंत्रण के लिए जिम्मेदार है, अप्रत्याशित चोट को रोकने के लिए।

परियोजना प्रमुख कैरोलिना पराडा ने कहा: "इस प्रणाली ने जेमिनी के बहुमाध्यमिक विश्व अवधारणा क्षमता के उपयोग किया है, जैसे कि जेमिनी लेखन, कोड और चित्र उत्पन्न कर सकता है, अब यह रोबोटिक क्रियाएं उत्पन्न कर सकता है।"

वर्तमान में, यह मॉडल केवल विश्वसनीय परीक्षण योजना के विकासकर्ताओं के लिए खुला है। ध्यान देने योग्य बात यह है कि यह मॉडल जेमिनी2.0 आर्किटेक्चर पर विकसित किया गया है, जो गूगल के हालिया जेमिनी2.5 संस्करण के मुकाबले कुछ तकनीकी अंतर रखता है।