गूगल ने I/O 2025 कांफरेंस पर गेमा3n को औपनिवेशिक रूप से जारी किया, जो लो रिसोर्स डिवाइसों के लिए डिज़ाइन किया गया एक मल्टीमोडल AI मॉडल है, जो कि केवल 2GB RAM की आवश्यकता होती है ताकि फोन, टैबलेट और नोटबुक पर स्मूद के साथ काम कर सके। गेमा3n ने गेमीनी नॉनो के आर्किटेक्चर को संभाला है और ऑडियो समझ की क्षमता जोड़ी है, जो टेक्स्ट, इमेज, वीडियो और ऑडियो के रियल-टाइम प्रोसेसिंग का समर्थन करता है, और किसी भी क्लाउड कनेक्शन के बिना, मोबाइल डिवाइसों पर AI अनुभव को पूरी तरह से बदल देता है। AIbase ने सबसे नवीन सोशल मीडिया डायनेमिक्स का विश्लेषण किया और गेमा3n के तकनीकी खजाने और इसके AI इकोसिस्टम पर प्रभाव का विस्तार से विश्लेषण किया।

QQ20250521-095758.jpg

गेमा3n: लो रिसोर्स डिवाइसों पर मल्टीमोडल क्रांति

गेमा3n, गूगल के गेमा सीरीज़ का सबसे नया सदस्य है, जो एज़ रिच्यूअल्स और मोबाइल डिवाइसों को ओप्टिमाइज़ करता है, और मल्टीमोडल प्रोसेसिंग क्षमता प्रदान करता है। AIbase की जानकारी के अनुसार, यह मॉडल Gemini Nano आर्किटेक्चर पर आधारित है, और इसके नवीन टेक्निकल लेयर एम्बेडिंग टेक्नोलॉजी के माध्यम से मेमरी उपयोग को 2-4B पैरामीटर्स मॉडल स्तर तक कम कर दिया जाता है, जो कि केवल 2GB RAM की आवश्यकता पैदा करता है, और रिसोर्स बंद स्मार्टफोन या लाइटवेट नोटबुक के लिए उपयुक्त है।

इसके केंद्रीय फ़ंक्शन शामिल हैं:

मल्टीमोडल इनपुट: टेक्स्ट, इमेज, छोटे वीडियो और ऑडियो इनपुट का समर्थन करता है, और संरचित टेक्स्ट आउटपुट उत्पन्न करता है। उदाहरण के तौर पर, उपयोगकर्ता किसी फ़ोटो अपलोड कर सकता है और पूछ सकता है, "इस फोटो में कौन सी पौधे है?" या वीडियो का आउटपुट ऑडियो आदेश के माध्यम से विश्लेषित किया जा सकता है।

ऑडियो समझ: नए ऑडियो प्रोसेसिंग क्षमता जोड़ी गई है, जो बयान करती है, वाणिज्यिक ऑडियो को ट्रांसक्रिप्ट कर सकता है, पृष्ठभूमि का ध्वनि समझ पाता है, या ऑडियो की भावना को विश्लेषित कर सकता है, जो व्यक्तिगत सहायकों और अक्षमता अनुप्रयोगों के लिए उपयुक्त है।

डिवाइस पर रन: क्लाउड कनेक्शन की आवश्यकता नहीं है, सभी रीज़िंग डिवाइस पर ही होती है, जो कि 50 मिलीसेकंड के उच्चतम डिले के साथ निश्चित करती है, जो कि कम डिले और गोपनीयता सुरक्षा प्रदान करती है।

अधिक कुशल माइक्रोट्यूनिंग: Google Colab पर तेजी से माइक्रोट्यूनिंग का समर्थन करता है, जिससे डेवलपर्स को कुछ घंटों के प्रशिक्षण के बाद विशिष्ट कार्यों के लिए मॉडल को तैयार कर सकते हैं।

AIbase का परीक्षण दर्शाता है कि गेमा3n 1080p वीडियो फ़्रेम या 10 सेकंड के ऑडियो सेगमेंट प्रोसेस करता है, तो 90% सफलता दर के साथ ठीक वर्णन बनाए रखता है, जो मोबाइल डिवाइसों पर AI अनुप्रयोगों के लिए एक नया स्तंभ है।

तकनीकी खजाना: गेमीनी नॉनो आर्किटेक्चर और हल्की कलाई डिज़ाइन

गेमा3n ने Gemini Nano के हल्की आर्किटेक्चर को बनाए रखा है, और ज्ञान क्षारण के माध्यम से और क्वांटम अवगति ट्रेनिंग (QAT) के माध्यम से संसाधन की आवश्यकता को बड़े पैमाने पर कम कर दिया है, जबकि उच्च कार्यक्षमता को बनाए रखता है। AIbase का विश्लेषण दर्शाता है कि इसके मुख्य तकनीकी खजाने शामिल हैं:

लेयर एम्बेडिंग: मॉडल स्ट्रक्चर को ऑप्टिमाइज़ किया गया है, जो कि मेमरी उपयोग को 3.14GB (E2B मॉडल) और 4.41GB (E4B मॉडल) तक कम कर दिया है, जो कि लाइकलियर मॉडल्स (जैसे Llama4) की तुलना में 50% कम मेमरी आवश्यकता प्रदान करता है।

मल्टीमोडल फ्यूज़न: Gemini2.0 के सेपरेटर और बेहतर डेटा मिक्सिंग के साथ, यह 140+ भाषाओं के टेक्स्ट और विज़ुअल प्रोसेसिंग का समर्थन करता है, जो कि विश्व के उपयोगकर्ताओं की जरूरतों को कवर करता है।

लोकल रिन्ग: Google AI Edge फ़्रेमवर्क के माध्यम से, गेमा3n Qualcomm, MediaTek, और Samsung शिपिंग पर अधिक प्रभावी रूप से चलाया जा सकता है, Android और iOS डिवाइसों का संगत है।

ओपन सोर्स प्रीव्यू: मॉडल Hugging Face पर प्रीव्यू रिलीज़ की गई है (gemma-3n-E2B-it-litert-preview और E4B), जिससे डेवलपर्स Ollama या transformers लाइब्रेरी के माध्यम से परीक्षण कर सकते हैं।

गेमा3n का LMSYS Chatbot Arena स्कोर ELO 1338 है, जो कि ग्राफिकल मॉडल Llama4 के 3B मॉडल को पराजित करके मोबाइल डिवाइसों पर AI के लिए एक नेतृत्व निर्माण करता है।

अनुप्रयोग क्षेत्र: अक्षमता से लेकर मोबाइल क्रिएटिव्स तक

गेमा3n की लो रिसोर्स की आवश्यकता और मल्टीमोडल क्षमता उसे विभिन्न क्षेत्रों में उपयोगी बनाती है:

अक्षमता तकनीक: नया ज्ञान अंग्रेजी समझ की क्षमता "सबसे मजबूत ज्ञान अंग्रेजी मॉडल" के रूप में जानी जाती है, जो कि हातलिखित ज्ञान वीडियो को रियल-टाइम विश्लेषित करता है, जो कि कानून और इन्हियो टेलेकम्यूनिकेशन समुदाय के लिए एक कुशल संचार उपकरण प्रदान करता है।

मोबाइल क्रिएटिव: फ़ोन पर इमेज विवरण, वीडियो सारांश या ऑडियो ट्रांसक्रिप्ट बनाने में समर्थ करता है, जो कि सामग्री कर्ता शीघ्र वीडियो या सोशल मीडिया सामग्री को संपादित करने के लिए उपयुक्त है।