प्रसिद्ध घरेलू कृत्रिम बुद्धिमत्ता कंपनी Moonshot AI (मूनशॉट एआई) ने हाल ही में दो नए दृश्य भाषा मॉडल - Kimi-VL और Kimi-VL-Thinking के ओपन सोर्स लॉन्च की घोषणा की है। इन दोनों मॉडलों ने अपने हल्के आर्किटेक्चर और उत्कृष्ट बहु-मोडल समझ और तर्क क्षमता के साथ कई प्रमुख बेंचमार्क परीक्षणों में GPT-4o सहित कई बड़े मॉडलों को पीछे छोड़ दिया है, जिससे उद्योग में व्यापक ध्यान आकर्षित हुआ है।

QQ_1744593881911.png

हल्का शरीर, शक्तिशाली शक्ति

अरबों या खरबों पैरामीटर वाले मुख्यधारा के बड़े मॉडल के विपरीत, Kimi-VL और Kimi-VL-Thinking दोनों ने MoE (Mixture-of-Experts, मिश्रित विशेषज्ञ) आर्किटेक्चर को अपनाया है, जिसके सक्रिय पैरामीटर लगभग 3 बिलियन हैं। इसका मतलब है कि वे संचालित करने और परिनियोजित करने में अधिक कुशल हैं, और उन्हें कम कम्प्यूटेशनल संसाधनों की आवश्यकता होती है। हालांकि, आश्चर्यजनक रूप से, इस तरह के हल्के आर्किटेक्चर के बावजूद, इन दोनों मॉडलों ने कई बेंचमार्क परीक्षणों में उत्कृष्ट परिणाम प्राप्त किए हैं, जो उनकी शक्तिशाली तर्क क्षमता को दर्शाते हैं।

बहु-मोडल बुद्धिमत्ता में उन्नयन: गणितीय तर्क और बुद्धिमान एजेंट संचालन उत्कृष्ट प्रदर्शन

Kimi-VL श्रृंखला के मॉडल बहु-मोडल तर्क और बुद्धिमान एजेंट क्षमता के मामले में उत्कृष्ट प्रदर्शन करते हैं। मॉडल की बहु-मोडल गणितीय तर्क क्षमता का परीक्षण करने वाले MathVision बेंचमार्क परीक्षण में, Kimi-VL ने 36.8% का स्कोर प्राप्त किया, जो इसके दस गुना से अधिक पैरामीटर वाले बड़े मॉडल के बराबर है।

और भी प्रभावशाली बात यह है कि बुद्धिमान एजेंट संचालन क्षमता का आकलन करने वाले ScreenSpot-Pro कार्य में, Kimi-VL का स्कोर 34.5% तक पहुँच गया। इससे पता चलता है कि इस मॉडल में जटिल उपयोगकर्ता इंटरफ़ेस को समझने और तदनुसार संचालन करने की उत्कृष्ट क्षमता है, जो भविष्य में अधिक बुद्धिमान मानव-कंप्यूटर सहभागिता अनुप्रयोगों के विकास के लिए आधार तैयार करता है।

QQ_1744593893636.png

उच्च-परिभाषा दृष्टि: उच्च-रिज़ॉल्यूशन छवि प्रसंस्करण का मूल समर्थन

MoonViT आर्किटेक्चर के कारण, Kimi-VL श्रृंखला के मॉडल में शक्तिशाली छवि-पाठ पहचान और समझ क्षमता है। OCRBench बेंचमार्क परीक्षण में, इसका स्कोर 867 तक पहुँच गया, जो उच्च-रिज़ॉल्यूशन छवियों को संसाधित करने और जटिल पाठ की पहचान करने में इसके उत्कृष्ट प्रदर्शन को दर्शाता है। यह विशेषता उन अनुप्रयोग परिदृश्यों के लिए बहुत महत्वपूर्ण है जिनमें बड़ी मात्रा में छवियों और दस्तावेज़ जानकारी होती है।

लंबी स्मृति: लंबे संदर्भ समझ को आसानी से संभालना

लंबे संदर्भ समझ क्षमता Kimi-VL श्रृंखला के मॉडल की एक और मुख्य विशेषता है। वे 128K टोकन तक के संदर्भ इनपुट का समर्थन करते हैं। इसका मतलब है कि मॉडल एक साथ लंबे दस्तावेज़ों, वीडियो और अन्य जटिल लंबे पाठ जानकारी को संसाधित कर सकता है, और अधिक गहन समझ और विश्लेषण कर सकता है।

लंबे दस्तावेज़ समझ परीक्षण MMLongBench-Doc में, Kimi-VL ने 35.1% का स्कोर प्राप्त किया, जबकि लंबे वीडियो समझ परीक्षण LongVideoBench में, इसने 64.5% का उच्च स्कोर प्राप्त किया। इससे Kimi-VL श्रृंखला के मॉडल को दस्तावेज़ प्रश्नोत्तर, वीडियो विश्लेषण आदि परिदृश्यों में बड़ी अनुप्रयोग क्षमता मिलती है जहाँ बड़ी मात्रा में संदर्भ जानकारी को संसाधित करने की आवश्यकता होती है।

ओपन सोर्स साझाकरण, बहु-मोडल बुद्धिमान भविष्य का सह-निर्माण

Moonshot AI ने जोर देकर कहा कि Kimi-VL और Kimi-VL-Thinking का यह ओपन सोर्स लॉन्च सामान्य बहु-मोडल बुद्धिमत्ता की दिशा में एक छोटा सा कदम है। वे ओपन सोर्स के तरीके से अधिक समुदाय डेवलपर्स को मॉडल के अनुप्रयोग विकास में भाग लेने के लिए आकर्षित करना चाहते हैं, और दस्तावेज़ प्रश्नोत्तर, इंटरफ़ेस संचालन, छवि-पाठ समझ, वीडियो विश्लेषण आदि क्षेत्रों में Kimi-VL श्रृंखला के मॉडल की असीमित संभावनाओं का संयुक्त रूप से पता लगाना चाहते हैं।

वर्तमान में, डेवलपर्स निम्नलिखित तरीकों से Kimi-VL श्रृंखला के मॉडल की संबंधित जानकारी और कोड प्राप्त कर सकते हैं:

  • GitHub: https://github.com/MoonshotAI/Kimi-VL

  • https://huggingface.co/moonshotai/Kimi-VL-A3B-Instruct