"MiniCPM-V2.6" का एंड-साइड मल्टी-मोडल आर्टिफिशियल इंटेलिजेंस मॉडल, जिसमें केवल 8B पैरामीटर हैं, ने 20B से कम एकल चित्र, कई चित्र, और वीडियो समझ में तीन SOTA (State of the Art, यानी वर्तमान सर्वोत्तम स्तर) परिणाम प्राप्त किए हैं, जिससे एंड-साइड AI की मल्टी-मोडल क्षमता में उल्लेखनीय वृद्धि हुई है, और यह GPT-4V स्तर के साथ पूरी तरह से तुलनीय है।
विशेषताओं का सारांश निम्नलिखित है:
मॉडल की विशेषताएँ: MiniCPM-V2.6 ने एंड-साइड पर एकल चित्र, कई चित्र और वीडियो समझ जैसे मुख्य क्षमताओं में पूरी तरह से प्रगति की है, और पहली बार रीयल-टाइम वीडियो समझ, कई चित्रों का संयुक्त समझ जैसे कार्यों को एंड-साइड पर लाया है, जिससे यह जटिल वास्तविक दुनिया के दृश्यों के और करीब आ गया है।
प्रभावशीलता और प्रदर्शन: यह मॉडल छोटे आकार में बड़े प्रदर्शन के साथ है, जिसमें अत्यधिक पिक्सेल घनत्व (Token Density) है, जो GPT-4o के एकल टोकन कोडिंग पिक्सेल घनत्व से दो गुना अधिक है, और एंड-साइड उपकरणों पर अत्यधिक संचालन दक्षता प्राप्त करता है।
एंड-साइड मित्रता: मॉडल के क्वांटाइजेशन के बाद केवल 6GB मेमोरी की आवश्यकता होती है, एंड-साइड पर अनुमान लगाने की गति प्रति सेकंड 18 टोकन तक पहुँचती है, जो पिछले मॉडल की तुलना में 33% तेज है, और यह कई भाषाओं और अनुमान फ्रेमवर्क का समर्थन करता है।
कार्यात्मक विस्तार: MiniCPM-V2.6 ने OCR क्षमता के माध्यम से, एकल चित्र दृश्य की उच्च-परिभाषा छवि विश्लेषण क्षमता को कई चित्रों और वीडियो दृश्यों में स्थानांतरित किया है, जिससे दृश्य टोकनों की संख्या कम हो गई है और संसाधनों की बचत हुई है।
अनुमान क्षमता: यह कई चित्रों की समझ और जटिल अनुमान कार्यों में उत्कृष्ट क्षमता प्रदर्शित करता है, जैसे कि साइकिल की सीट को समायोजित करने के चरणों का विवरण, और मेमेस के पीछे की समस्याओं की पहचान।
कई चित्र ICL: मॉडल संदर्भ-स्वल्प नमूना अध्ययन का समर्थन करता है, जिससे यह विशेष क्षेत्रों के कार्यों के लिए तेजी से अनुकूलित हो सकता है और आउटपुट स्थिरता बढ़ा सकता है।
उच्च-परिभाषा दृश्य संरचना: एकीकृत दृश्य संरचना के माध्यम से, मॉडल की OCR क्षमता को जारी रखा गया है, जिससे एकल चित्र से कई चित्रों और वीडियो तक सुगम विस्तार संभव हो गया है।
अत्यधिक निम्न भ्रांति दर: MiniCPM-V2.6 भ्रांति परीक्षण में उत्कृष्ट प्रदर्शन करता है, जो इसकी विश्वसनीयता को दर्शाता है।
MiniCPM-V2.6 मॉडल का लॉन्च एंड-साइड AI के विकास के लिए महत्वपूर्ण है, यह न केवल मल्टी-मोडल प्रसंस्करण क्षमता को बढ़ाता है, बल्कि यह संसाधनों की सीमाओं वाले एंड-साइड उपकरणों पर उच्च प्रदर्शन AI प्राप्त करने की संभावना को भी दर्शाता है।
MiniCPM-V2.6 का ओपन-सोर्स पता:
GitHub:
https://github.com/OpenBMB/MiniCPM-V
HuggingFace:
https://huggingface.co/openbmb/MiniCPM-V-2_6
llama.cpp, ollama, vllm तैनाती ट्यूटोरियल का पता:
https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc
MiniCPM श्रृंखला का ओपन-सोर्स पता:
https://github.com/OpenBMB/MiniCPM