अप्पल ने फिर से एक बड़ी खबर पेश की है, अनजाने में एक ऐसा मॉडल जारी किया है जिसे "फ़ास्टवीएलएम" कहा जाता है। नाम सुनकर शायद थोड़ा गंभीर हो जाए, लेकिन साधारण बात करें, इस चीज़ के बिना आपके आईफ़ोन में अच्छी तरह से "देखने की दिव्य ज्ञानशक्ति" आ जाएगी। इसके अलावा, यह आपको बातचीत करने वाले जैसा लग सकता है! और सबसे बड़ी बात यह है कि यह चीज़ इतनी तेज है कि अप्पल ने घोषणा की है, यह आपको "मज़ाकिया बात" करने की गति पहले के कुछ मॉडलों की तुलना में 85 गुना जल्दी करता है! यह बिल्कुल असाधारण है!
आप नहीं लगते कि आपके मोबाइल में उपलब्ध AI हेल्पर कुछ अल्पस्मार्ट या बेहद सरल होते हैं, जो केवल आदेशों का पालन करते हैं? जैसे आप एक जटिल चार्ट को दिखाते हैं और पूछते हैं, तो यह आपको "मैं नहीं जानता" कहता है? यह बहुत विश्रांतिकर होता है! लेकिन फ़ास्टवीएलएम का उपयोग करने से यह समस्या समाप्त हो जाएगी!
हाई-डी पिक्चर को देखने का नया युग: जटिल पिक्चर को कैसे समझने में मुश्किल है?
फ़ास्टवीएलएम की शक्ति को समझने के लिए, हमें पहले जानना चाहिए कि पहले विशिष्ट AI मॉडलों को जटिल पिक्चर प्रोसेस करने में क्यों "टूट गए।" जानिए, एक हाई-डी पिक्चर को बड़े जानकारी की बैग जैसा समझा जा सकता है, जिसमें हज़ारों की संख्या में पिक्सल होते हैं। पारंपरिक विशिष्ट एन्कोडर (AI के "दिव्य दृष्टि") इन हाई-डी पिक्चर को प्रोसेस करते समय बहुत सारे "विशिष्ट बक्सेट" बनाते हैं (आप इन्हें पिक्सल के छोटे-छोटे टुकड़े समझ सकते हैं), जिनकी संख्या इतनी बड़ी होती है कि पीछे की भाषा मॉडल (AI का "मन") इन्हें प्रोसेस करने में समस्या कर जाती है। यह बहुत धीमा होता है और कभी-कभी बिल्कुल नहीं काम करता।
इसका अर्थ है कि आप बच्चे को एक बहुत जटिल चित्र को दिखा रहे हैं, जिसमें हज़ारों की संख्या में स्थान हैं। बच्चा इससे अधिक तेज़ नहीं जाएगा और आपकी चाहिए बात को खोज नहीं पाएगा। यही तो पारंपरिक मॉडलों की समस्या है: जानकारी बहुत ज्यादा है और प्रोसेस करने की क्षमता नहीं है! और यह भी है कि इन "विशिष्ट बक्सेट" का उत्पादन भी समय लेता है, जो प्रतिक्रिया की गति को और भी धीमा कर देता है।
इसलिए, विशिष्ट बक्सेट और जटिल पिक्सेल के बीच के संतुलन को सुधारने के लिए, विशिष्ट AI मॉडल के प्रदर्शन को बढ़ाना बहुत मुश्किल है।
फ़ास्टवीएलएम का रहस्य: फ़ास्टवीटीएचडी का आगमन!
इस समस्या को सुलझाने के लिए, अप्पल के इंजीनियरों ने एक रहस्यमय उपकरण को बनाया - फ़ास्टवीटीएचडी! इसका नाम फ़िल्म में ही सुनाई देता है, लेकिन इसका कार्य काफी रोचक है। पारंपरिक विशिष्ट एन्कोडर (जैसे ViT) फ़ास्टवीटीएचडी की तुलना में एकदम सीधे काम करते हैं, जिनका परिणाम होता है कि बहुत सारे "विशिष्ट बक्सेट" बनते हैं। फ़ास्टवीटीएचडी एक "हाइब्रिड" आर्किटेक्चर का उपयोग करता है, जो कॉन्वोल्यूशनल लेयर और ट्रांसफॉर्मर लेयर का संयोजन करता है।
कॉन्वोल्यूशनल लेयर जैसे एक अनुभवी डिटेक्टिव जैसे काम करता है, जो पिक्चर से जटिल और एक-एक-स्तरीय जानकारी निकालता है, और इसकी गतिशीलता भी बहुत अधिक होती है। ट्रांसफॉर्मर लेयर जैसे एक इंफार्मेशन एनालिसिस करने वाले इंटेलिजेंट एनालिस्ट का काम करता है, जो डिटेक्टिव द्वारा निकाली गई जानकारी को गहरे रूप से विश्लेषित करता है। फ़ास्टवीटीएचडी इस विशेषता का लाभ उठाता है, जिससे इसका उपयोग करते समय, हाई-डी पिक्चर को प्रोसेस करने पर विशिष्ट बक्सेट की संख्या को कम कर दिया जा सकता है। यह जैसे डिटेक्टिव केवल महत्वपूर्ण शिफ़्ट को एनालिस्ट को दिखाता है, जो एनालिस्ट की कार्यप्रवृत्ति को काफी कम कर देता है।
और फ़ास्टवीटीएचडी बस बक्सेट की संख्या को कम करने से समाप्त नहीं होता, बल्कि इससे प्रक्रिया का समय भी काफी कम हो जाता है। इसका मतलब है कि आपका आईफ़ोन फ़ोटो को जल्दी प्रोसेस कर सकता है और फिर इसके बाद जल्दी से जवाब दे सकता है।
फ़ास्टवीएलएम की अनौपचारिक विधि: आसानी से ज्यादा जल्दी करने का तरीका
और यह भी है कि फ़ास्टवीएलएम विशिष्ट बक्सेट की संख्या और पिक्सेल की रिझोल्यूशन के संतुलन को सुधारने के लिए एक अनौपचारिक विधि लागू करता है - बस प्रवेश के पिक्सेल के आकार को बदल देता है, और इसके लिए किसी और जटिल प्रक्रिया (जैसे बक्सेट कटाना) की जरूरत नहीं होती। इससे मॉडल का डिज़ाइन बहुत आसान और दक्ष हो जाता है, और इसे सीमित संसाधन वाले मोबाइल डिवाइसों पर बेहतर तरीके से चलने की सुविधा मिलती है।
यह जैसे आप कई बर्तन भर लेते हैं, पारंपरिक मॉडलों को पहले सब कुछ छोटा करना पड़ता है, जो बहुत समय लेता है। लेकिन फ़ास्टवीएलएम के लिए, बस बर्तन के आकार को देखने की जरूरत है और फिर यह बता देता है कि यह कितना अच्छा है, और यह आपके "खाने की लालसा" के आधार पर (प्रवेश पिक्सेल का आकार) देखने की मात्रा का निर्णय लेता है, और कोई अतिरिक्त चीज़ जैसे "फ़िल्टरिंग" की जरूरत नहीं होती। यह क्या नहीं है?