गूगल डीपमाइंड ने अपने नए पीढ़ी के रोबोटिक एआई मॉडल जेमिनी रोबोटिक्स ऑन-डिवाइस का आधिकारिक रूप से लॉन्च कर दिया है, जो रोबोटिक एआई प्रौद्योगिकी में एक आगे की कदम रखता है। इस मॉडल ने बिना इंटरनेट के रोबोट में स्थानीय रूप से चलने में सक्षम होने के साथ-साथ सामान्यता और कार्य अनुकूलता के साथ अच्छा प्रदर्शन किया है, जो औद्योगिक, भंडारण और घरेलू सेवा रोबोट के क्षेत्र में एक क्रांति लाता है।

image.png

बादल के सीमा के बाहर, रोबोटिक एआई स्थानीय रूप से चल रहा है

जेमिनी रोबोटिक्स ऑन-डिवाइस गूगल जेमिनी 2.0 पर आधारित एक दृश्य-भाषा-क्रिया (VLA) मॉडल है, जिसका सबसे बड़ा लाभ यह है कि यह पूरी तरह से रोबोट के स्थानीय हार्डवेयर पर चलता है और बादल की गणना संसाधनों पर निर्भर नहीं करता है। यह पारंपरिक बादल रोबोटिक प्रणाली में अस्थिर नेटवर्क परिस्थितियों में देरी और विश्वसनीयता की समस्या को हल करता है। डीपमाइंड के वरिष्ठ निदेशक कैरोलीना पारडा ने कहा, "इस मॉडल छोटा और कुशल है, जो रोबोटिक हार्डवेयर पर सीधे चल सकता है और निम्न देरी और ऑफलाइन परिस्थितियों में स्थिर प्रदर्शन सुनिश्चित करता है।"

image.png

स्थानीय रूप से चलाकर, जेमिनी रोबोटिक्स ऑन-डिवाइस नेटवर्क सीमित परिस्थितियों (जैसे कारखाने, भंडारण या दूरस्थ क्षेत्रों) में रोबोट के उपयोगिता को बहुत बढ़ा दिया है। परीक्षण के अनुसार, इसका प्रदर्शन बादल पर जेमिनी रोबोटिक्स मॉडल के समान है, और कई मानक परीक्षणों में अन्य स्थानीय एआई मॉडल के ऊपर भी रहा है, जो इसकी मजबूत प्रतिस्पर्धा को दर्शाता है।

सामान्यता और लचीलापन: 50 प्रदर्शन से नए कार्य

जेमिनी रोबोटिक्स ऑन-डिवाइस केवल प्रदर्शन में ध्यान खींचने वाला ही नहीं है, बल्कि इसकी कार्य अनुकूलता भी एक शीर्ष बिंदु है। डीपमाइंड का कहना है कि इस मॉडल के लिए केवल 50 से 100 प्रदर्शन की आवश्यकता होती है, जिससे नए कार्यों के लिए तेजी से अनुकूलन संभव होता है, जैसे बटन खोलना, कपड़े झाड़ना या औद्योगिक एसेंबली करना।

इस मॉडल का शुरुआती उद्देश्य ALOHA रोबोट पर शिक्षण था, लेकिन इसे दो-बाजू फ्रैंका FR3 रोबोट और Apptronik के Apollo मानव रूपी रोबोट पर सफलतापूर्वक अनुकूलित कर दिया गया है, जो अलग-अलग हार्डवेयर प्लेटफॉर्म पर सामान्यता को दर्शाता है। विकासक नैसर्गिक भाषा निर्देशों द्वारा मॉडल को नियंत्रित और समायोजित कर सकते हैं, जिससे जटिल दो-बाजू कार्य या गतिशील परिदृश्य में नए वस्तुओं के साथ आसानी से निपटा जा सकता है। पारडा ने कहा, "जनरेटिव एआई रोबोट को कम डेटा से ज्ञान के विस्तार में सक्षम बनाती है, जो जटिल परिदृश्यों में डेप्लॉयमेंट को बहुत तेज करता है।"

ओपन डेवलपर इकोसिस्टम, SDK नवाचार को बल देता है

जेमिनी रोबोटिक्स ऑन-डिवाइस के उद्योग अनुप्रयोगों को तेज करने के लिए, गूगल डीपमाइंड ने एक सॉफ्टवेयर विकास सूट (SDK) भी जारी किया है, जो अब "ट्रस्टेड टेस्टर" कार्यक्रम के माध्यम से GitHub पर खुला है। विकासक एमूजेओको भौतिक सिमुलेटर या वास्तविक परिदृश्य में मॉडल के परीक्षण और समायोजन के लिए SDK का उपयोग कर सकते हैं। यह कदम डीपमाइंड के VLA मॉडल के समायोजन अधिकारों के डेवलपर्स के लिए पहली बार खोलने के रूप में लिया गया है, जो रोबोटिक एआई के अनुकूलन अनुप्रयोगों के रास्ते को खोलता है।

SDK विकासकों को कम प्रदर्शन के साथ रोबोट को विशिष्ट कार्य करने के लिए तेजी से शिक्षित करने की अनुमति देता है, जैसे कि एक रूबिक्स क्यूब को थैले में रखना या विस्तृत औद्योगिक कार्य करना। डीपमाइंड कहता है कि इस मॉडल नए अज्ञात परिदृश्यों और वस्तुओं में अच्छा प्रदर्शन करता है, जैसे कि औद्योगिक परिवहन पट्टी पर एसेंबली कार्य करना, जो इसकी मजबूत व्यापकता को दर्शाता है।

सुरक्षा और उद्योग के भविष्य: रोबोटिक एआई के अगला कदम

सुरक्षा के मामले में, डीपमाइंड ने जेमिनी रोबोटिक्स ऑन-डिवाइस के साथ व्यापक सुरक्षा उपायों और विशेषज्ञों और नीति निर्माताओं के सहयोग के माध्यम से संभावित जोखिमों को कम करने का आश्वासन दिया है। एक ही समय में, इस मॉडल के लॉन्च को गूगल के Nividia GR00T और OpenAI RT-2 जैसे प्रतिद्वंद्वियों के साथ जेमिनी रोबोटिक्स एआई के क्षेत्र में तीव्र प्रतिस्पर्धा के हिस्सा के रूप में देखा जा रहा है।

भंडारण रोबोट से घरेलू सेवा रोबोट तक, जेमिनी रोबोटिक्स ऑन-डिवाइस के स्थानीय चलाने की क्षमता और तेजी से सीखने के गुण इसे विभिन्न परिदृश्यों में व्यापक रूप से उपयोग के लिए आधार प्रदान करते हैं। AIbase कहता है कि यह तकनीक रोबोट के डेप्लॉयमेंट लागत को कम करने के साथ-साथ एआई चालित स्वचालन को अधिक दैनिक जीवन के परिदृश्य में ले जाने में मदद कर सकता है।

मॉडल प्रवेश: https://deepmind.google/discover/blog/gemini-robotics-on-device-brings-ai-to-local-robotic-devices/