"MiniCPM-V2.6" का एंड-साइड मल्टी-मोडल आर्टिफिशियल इंटेलिजेंस मॉडल, जिसमें केवल 8B पैरामीटर हैं, ने 20B से कम एकल चित्र, कई चित्र, और वीडियो समझ में तीन SOTA (State of the Art, यानी वर्तमान सर्वोत्तम स्तर) परिणाम प्राप्त किए हैं, जिससे एंड-साइड AI की मल्टी-मोडल क्षमता में उल्लेखनीय वृद्धि हुई है, और यह GPT-4V स्तर के साथ पूरी तरह से तुलनीय है।

微信截图_20240807080523.png

विशेषताओं का सारांश निम्नलिखित है:

  1. मॉडल की विशेषताएँ: MiniCPM-V2.6 ने एंड-साइड पर एकल चित्र, कई चित्र और वीडियो समझ जैसे मुख्य क्षमताओं में पूरी तरह से प्रगति की है, और पहली बार रीयल-टाइम वीडियो समझ, कई चित्रों का संयुक्त समझ जैसे कार्यों को एंड-साइड पर लाया है, जिससे यह जटिल वास्तविक दुनिया के दृश्यों के और करीब आ गया है।

  2. प्रभावशीलता और प्रदर्शन: यह मॉडल छोटे आकार में बड़े प्रदर्शन के साथ है, जिसमें अत्यधिक पिक्सेल घनत्व (Token Density) है, जो GPT-4o के एकल टोकन कोडिंग पिक्सेल घनत्व से दो गुना अधिक है, और एंड-साइड उपकरणों पर अत्यधिक संचालन दक्षता प्राप्त करता है।

  3. एंड-साइड मित्रता: मॉडल के क्वांटाइजेशन के बाद केवल 6GB मेमोरी की आवश्यकता होती है, एंड-साइड पर अनुमान लगाने की गति प्रति सेकंड 18 टोकन तक पहुँचती है, जो पिछले मॉडल की तुलना में 33% तेज है, और यह कई भाषाओं और अनुमान फ्रेमवर्क का समर्थन करता है।

  4. कार्यात्मक विस्तार: MiniCPM-V2.6 ने OCR क्षमता के माध्यम से, एकल चित्र दृश्य की उच्च-परिभाषा छवि विश्लेषण क्षमता को कई चित्रों और वीडियो दृश्यों में स्थानांतरित किया है, जिससे दृश्य टोकनों की संख्या कम हो गई है और संसाधनों की बचत हुई है।

  5. अनुमान क्षमता: यह कई चित्रों की समझ और जटिल अनुमान कार्यों में उत्कृष्ट क्षमता प्रदर्शित करता है, जैसे कि साइकिल की सीट को समायोजित करने के चरणों का विवरण, और मेमेस के पीछे की समस्याओं की पहचान।

  6. कई चित्र ICL: मॉडल संदर्भ-स्वल्प नमूना अध्ययन का समर्थन करता है, जिससे यह विशेष क्षेत्रों के कार्यों के लिए तेजी से अनुकूलित हो सकता है और आउटपुट स्थिरता बढ़ा सकता है।

  7. उच्च-परिभाषा दृश्य संरचना: एकीकृत दृश्य संरचना के माध्यम से, मॉडल की OCR क्षमता को जारी रखा गया है, जिससे एकल चित्र से कई चित्रों और वीडियो तक सुगम विस्तार संभव हो गया है।

  8. अत्यधिक निम्न भ्रांति दर: MiniCPM-V2.6 भ्रांति परीक्षण में उत्कृष्ट प्रदर्शन करता है, जो इसकी विश्वसनीयता को दर्शाता है।

MiniCPM-V2.6 मॉडल का लॉन्च एंड-साइड AI के विकास के लिए महत्वपूर्ण है, यह न केवल मल्टी-मोडल प्रसंस्करण क्षमता को बढ़ाता है, बल्कि यह संसाधनों की सीमाओं वाले एंड-साइड उपकरणों पर उच्च प्रदर्शन AI प्राप्त करने की संभावना को भी दर्शाता है।

MiniCPM-V2.6 का ओपन-सोर्स पता:

GitHub: 

 https://github.com/OpenBMB/MiniCPM-V

HuggingFace:

https://huggingface.co/openbmb/MiniCPM-V-2_6

 llama.cpp, ollama, vllm तैनाती ट्यूटोरियल का पता:

https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc

MiniCPM श्रृंखला का ओपन-सोर्स पता:

https://github.com/OpenBMB/MiniCPM