हाल ही में आयोजित Google I/O 2025 कान्फ़रेंस में, Google ने गुप्त रूप से एक ओपन सोर्स परियोजना — Google AI Edge Gallery को जारी किया। यह एक पूरी तरह से लोकल रन करने वाली जनरेटिव AI ऐप है, जिसमें नवीनतम Gemma3n मॉडल का इस्तेमाल किया गया है और जिसमें मल्टीमोड क्षमता शामिल है, जो टेक्स्ट, इमेज और ऑडियो इनपुट का समर्थन करती है। इस परियोजना को अपनी उच्च एफिसियंसी और लोकप्रिय कोड के साथ, डेवलपर्स के लिए लॉकलाइज़्ड AI ऐप बनाने का आदर्श टेम्पलेट प्रदान करती है।
Google AI Edge Gallery: लोकल साइड AI का नया ओपन सोर्स निशान
Google AI Edge Gallery एक प्रयोगशील ऐप है जो Android (iOS वर्जन जल्द ही रिलीज़ होने वाली है) के लिए डिज़ाइन किया गया है। यह उपयोगकर्ताओं को हगिंग फेस से विभिन्न ओपन सोर्स AI मॉडल्स का इस्तेमाल करने की अनुमति देता है, जो नेटवर्क के बिना ही अच्छी प्रदर्शन करते हैं। परियोजना Apache2.0 लाइसेंस के तहत उपलब्ध है, और कोड GitHub पर खुला है, जिससे डेवलपर्स को मुफ्त रूप से इसका उपयोग और फिटिंग करने की सुविधा मिलती है। AIbase के अनुसार, इस परियोजना ने न केवल Google के लोकल साइड AI क्षेत्र में सबसे नवीन परिणामों को प्रदर्शित किया है, बल्कि डेवलपर्स के लिए एक तेजी से सीखने वाला टेम्पलेट भी प्रदान किया है, जिससे वे कस्टम आईएआई ऐप बना सकते हैं।
इसका केंद्रीय उपयोग केंद्रित है गेमा3एन मॉडल पर, जो मोबाइल डिवाइसों के लिए अपोझ डिजाइन की गई मल्टीमोड छोटी भाषा मॉडल (एसएलएम) है। यह टेक्स्ट, इमेज, ऑडियो और वीडियो इनपुट का समर्थन करती है और प्रबल लोकल इन्फेरेंस क्षमता प्रदान करती है। यहाँ ऑफलाइन परिस्थितियों में वाइज़ टो टेक्स्ट या इमेज का एनालिसिस करने या रियल टाइम इंटरैक्शन करने के लिए भी Google AI Edge Gallery ने लोकल साइड AI के बड़े संभावित क्षमता को दिखाया है।
मल्टीमोड क्षमता: टेक्स्ट, इमेज, ऑडियो को पूरी तरह से समर्थित
Google AI Edge Gallery गेमा3एन की मल्टीमोड क्षमता को समावेशित करता है, जो इस्तेमालकर्ताओं को प्रोसेस करने के लिए इमेज और ऑडियो अपलोड करने की अनुमति देता है। उदाहरण के तौर पर, साइट पर टेक्स्टर्स उपलब्ध हो सकते हैं जो डिवाइस की फोटो लेंगे और प्रश्न करेंगे, AI इस इमेज के साथ बनावट जनित कर सकती है; वेयरहाउस स्टाफ ऑडियो के माध्यम से स्टॉक डेटा को अपडेट कर सकते हैं, यह उन्हें हाथों से मुक्त कर देता है। इसके अलावा, गेमा3एन को उच्च गुणवत्ता वाली स्वचालित ऑडियो रिकॉर्डिंग (एएसआर) और ऑडियो ट्रांसलेशन क्षमता का समर्थन है, जो जटिल मल्टीमोड इनपुट का प्रबंधन कर सकती है और इंटरैक्टिव ऐप के लिए और अधिक संभावित तरीके प्रदान करती है।
AIbase की जानकारी के अनुसार, गेमा3एन के 2B और 4B पैरामीटर वर्जन टेक्स्ट, इमेज, वीडियो और ऑडियो इनपुट का समर्थन करते हैं, और संबंधित मॉडल्स हैगिंग फेस पर जारी हैं। ऑडियो प्रोसेसिंग की क्षमता जल्द ही रिलीज़ होने वाली है। ट्रैडिशनल क्लाउड मोडल की तुलना में, गेमा3एन का स्माल डिज़ाइन उसे फोन, टैबलेट जैसे संसाधित डिवाइसों पर फिर से स्मार्ट रन करने की सुविधा प्रदान करता है। मॉडल का आकार 529MB है, लेकिन प्रीफिल करने की गति प्रति सेकंड 2585 टोकेन है जो लंबे पृष्ठों को ध्यान में रखकर देखती है।
ओपन सोर्स और अच्छी प्रदर्शन: डेवलपर्स के लिए बेहतर डिज़ाइन
Google AI Edge Gallery, LiteRT रनटाइम और LLM इन्फेरेंस API के माध्यम से लाइटवेट मॉडल रनटाइम एनवायरनमेंट प्रदान करता है, जिससे डेवलपर्स को हगिंग फेस कम्युनिटी से मॉडल का चयन करने और स्विच करने की सुविधा मिलती है। परियोजना में रेट्रिवल एनहांस्ड जेनरेशन (आरएजी) और फंक्शन कॉल की क्षमता भी शामिल है, जिससे डेवलपर्स को मॉडल को फाइनट्यून किए बिना भी ऐप में विशेष क्षेत्रों की डेटा का इंजेक्शन कर सकते हैं। उदाहरण के लिए, एंटरप्राइज़ को आरएजी तकनीक का इस्तेमाल करके अपने आंतरिक कनोनलेड्ज के साथ AI को जोड़ने की सुविधा है, जो विशिष्ट क्वेरी सेवाएं प्रदान करती है।
इसके अलावा, गेमा3एन को नवीनतम int4 क्वांटाइजेशन तकनीक का समर्थन है, जो बफ़ 16 फ़ॉर्मैट की तुलना में मॉडल का आकार 2.5-4 गुना कम करती है, इसके साथ ही देरी और मेमरी उपयोग को मानायुक्त करती है। इस अत्यधिक कुशल क्वांटाइजेशन स्कीम के कारण AI मॉडल निम्न ऊर्जा डिवाइसों पर अद्वितीय प्रदर्शन प्रदान करता है। डेवलपर्स Google के प्रदान कर रहे Colab ट्यूटोरियल का उपयोग करके मॉडल को फाइनट्यून करने, ट्रांसफॉर्म करने और डिप्लॉय करने में काफी आसानी होगी।
ऑफलाइन रन करना और गोपनीयता की संरक्षण: लोकल साइड AI की विशेषता