MNN के नवीनतम अपडेट

अलिबाबा के सॉफ़्टवेयर परियोजना MNN (Mobile Neural Network) ने अपने मोबाइल एप्लिकेशन MnnLlmApp, जो मोबाइल पर काम करता है, के सबसे नया संस्करण जारी किया। इस अपडेट में Qwen-2.5-Omni-3B और 7B मॉडल का समर्थन शामिल है। यह एक पूरी तरह से ओपन सोर्स एप्लिकेशन है जो मोबाइल पर स्थानीय रूप से काम करता है और पाठ से पाठ, छवि से पाठ, ध्वनि से पाठ और पाठ से छवि उत्पादन जैसी विभिन्न प्रकार के कार्य करने की सुविधा प्रदान करता है। इसकी उच्च कार्यक्षमता और कम संसाधन खपत के कारण यह डेवलपर्स के बीच बहुत लोकप्रिय हो गया है। AIbase ने निरीक्षण किया है कि MNN का इस अपडेट मोबाइल पर मल्टीमोडल AI के उपयोग को आगे बढ़ा रहा है।

QQ20250513-094907.jpg

परियोजना का लिंक:

https://github.com/alibaba/MNN/blob/master/apps/Android/MnnLlmChat/README.md

मुख्य बिंदु: मल्टीमोडल क्षमता में वृद्धि

नवीनतम संस्करण MnnLlmApp में Qwen-2.5-Omni-3B और 7B मॉडल शामिल किए गए हैं। यह Alibaba Cloud Qwen टीम के Thinker-Talker आर्किटेक्चर पर आधारित है और पाठ, छवि, ध्वनि और वीडियो के संगठित प्रसंस्करण की क्षमता प्रदान करता है। AIbase ने पाया है कि यह निम्नलिखित कार्यों का समर्थन करता है:

पाठ से पाठ: उच्च गुणवत्ता वाले बातचीत, रिपोर्ट या कोड बनाना, क्लाउड मॉडल के समान।

छवि से पाठ: छवि में लिखे गए शब्दों की पहचान करना या स्थिति का वर्णन करना, दस्तावेज़ स्कैनिंग और विज़ुअल क्वेशन-अन्सवरिंग के लिए उपयुक्त है।

ध्वनि से पाठ: ध्वनि को लिपि में बदलने का प्रभावी तरीका, जिसमें कई भाषाओं का समर्थन होता है।

पाठ से छवि: विस्तारी मॉडल का उपयोग करके उच्च गुणवत्ता वाली छवियाँ बनाना, क्रिएटिव डिज़ाइन की जरूरतों को पूरा करने के लिए।

सोशल मीडिया पर विभिन्न प्रतिक्रियाएं हुई हैं कि डेवलपर्स Qwen-2.5-Omni-3B के 24GB GPU पर काम करने के प्रदर्शन पर बहुत संतुष्ट हैं। यह OmniBench बेंचमार्क परीक्षण में 7B मॉडल की 90% से अधिक मल्टीमोडल प्रदर्शन रखता है और मेमरी खपत को 50% से अधिक कम करता है (60.2GB से 28.2GB)।

तकनीकी फायदे: स्थानीय शुद्धीकरण और अंतिम अनुकूलन

MNN फ़्रेमवर्क लाइटवेट और उच्च कार्यक्षमता के कारण प्रसिद्ध है, जिसका विशेष ध्यान उपयोग के लिए ओपन सोर्स किया गया है। AIbase एडिटर टीम ने नोट किया है कि नवीनतम MnnLlmApp CPU पर शुद्धीकरण में उत्कृष्ट प्रदर्शन दिखाया है, जिसकी पूर्व प्रस्तुति llamacpp से 8.6 गुना तेज है और दश्नाचार की प्रक्रिया 2.3 गुना तेज है। इस एप्लिकेशन का पूरा काम मोबाइल पर ही होता है और इंटरनेट के बिना भी विभिन्न मल्टीमोडल कार्यों का प्रबंधन कर सकता है, जिससे डेटा गोपनीयता को सुरक्षित रखा जा सकता है। इस मॉडल की सम्मिलित रेंज बड़ी है, Qwen, Gemma, Llama, Baichuan जैसे प्रमुख ओपन सोर्स मॉडल को समर्थित करती है। डेवलपर्स GitHub से इसे डाउनलोड करके और बिल्ड कर सकते हैं। इसके अलावा, MNN FlashAttention-2 समर्थन प्रदान करता है, जो लंबे पाठ प्रदर्शन को बेहतर बनाता है।

उपयोग क्षेत्र: डेवलपमेंट से प्रोडक्शन तक

MnnLlmApp की मल्टीमोडल क्षमता ने विभिन्न स्थितियों में अपनी क्षमता प्रदर्शित की है:

शिक्षा और ऑफिस: दस्तावेज़ स्कैनिंग के लिए छवि से पाठ या मीटिंग रिकॉर्ड को ध्वनि से पाठ के रूप में बदलने के लिए।

क्रिएटिव डिज़ाइन: पाठ से छवि का उपयोग करके प्रचार सामग्री या कला कार्य का निर्माण।

इंटेलिजेंट हेल्पर: ऑफलाइन नेविगेशन या क्लाइंट हेल्पर जैसे लॉकल वर्चुअल एसिस्टेंट बनाना।

डेवलपर शिक्षा: ओपन सोर्स कोड और विस्तृत डॉक्यूमेंटेशन मोबाइल पर बड़े मॉडल के विकास के लिए एक रीफरेंस उदाहरण प्रदान करता है।

AIbase ने समीक्षा की है कि MNN की ओपन सोर्स प्रकृति और Qwen-2.5-Omni के समर्थन ने डेवलपर्स के लिए मोबाइल मल्टीमोडल AI की खोज के लिए एक आदर्श प्लेटफॉर्म बना दिया है। सोशल मीडिया पर, डेवलपर्स ने कहा है कि MnnLlmApp का शुद्धीकरण गति (Llama3.18B पूर्व प्रस्तुति 28 tokens/s) शीर्ष दर्जा नहीं है, लेकिन इसकी मल्टीमोडल एंटीग्रेशन और उपयोगिता पर्याप्त है जो प्रोटोटाइप डेवलपमेंट की जरूरतों को पूरा करती है।

उद्योग पृष्ठभूमि: मोबाइल AI का ओपन सोर्स तूफान

MNN का अपडेट मोबाइल AI प्रतियोगिता में उत्तरदायित्व को बढ़ा रहा है। DeepSeek के R1 मॉडल और Baichuan-Omni ने हाल ही में मल्टीमोडल समाधान को ओपन सोर्स किया है, स्थानीय तौर पर डिप्लॉय करने और कम लागत के साथ। हालांकि, MNN अलीबाबा इकोसिस्टम की समर्थन और हार्डवेयर अनुकूलन (जैसे Android डिवाइस के लिए गहरे समायोजन) के कारण प्रदर्शन और संगति में विशेष प्राधान्य रखता है। AIbase ने पाया है कि Alibaba Cloud ने ज्यादातर 200+ जनरेटिव AI मॉडल्स को ओपन सोर्स किया है, और Qwen श्रृंखला की Hugging Face पर डाउनलोड वर्षा 80 मिलियन से जारी है, जो इसकी वैश्विक प्रभावशालीता को दर्शाती है। MnnLlmApp का iOS संस्करण भी जारी किया गया है, जो इसकी प्रतिस्पर्धी प्लेटफॉर्म को बढ़ाता है।

मोबाइल मल्टीमोडल का भविष्य