आर्टिफिशियल इंटेलिजेंस तकनीक के निरंतर विकास के साथ, दृश्य और पाठ डेटा का संयोजन एक जटिल चुनौती बन गया है। पारंपरिक मॉडल अक्सर तालिकाओं, चार्टों, सूचना ग्राफ़ और चित्रण जैसे संरचित दृश्य दस्तावेज़ों को सटीक रूप से समझने में कठिनाई महसूस करते हैं, जो स्वचालित सामग्री निष्कर्षण और समझने की क्षमता को प्रभावित करता है, और इस प्रकार डेटा विश्लेषण, सूचना पुनर्प्राप्ति और निर्णय लेने जैसे अनुप्रयोगों को प्रभावित करता है। इस आवश्यकता का सामना करते हुए, IBM ने हाल ही में Granite-Vision-3.1-2B पेश किया है, जो दस्तावेज़ समझने के लिए डिज़ाइन किया गया एक छोटा दृश्य भाषा मॉडल है।
Granite-Vision-3.1-2B विभिन्न दृश्य प्रारूपों से सामग्री निकालने में सक्षम है, जिसमें तालिकाएं, चार्ट और चित्रण शामिल हैं। यह मॉडल सावधानीपूर्वक चयनित डेटा सेट पर प्रशिक्षित किया गया है, जिसमें सार्वजनिक और सिंथेटिक स्रोत शामिल हैं, और यह विभिन्न दस्तावेज़ संबंधित कार्यों को संभालने में सक्षम है। Granite बड़े भाषा मॉडल का एक उन्नत संस्करण होने के नाते, इसने चित्र और पाठ दो प्रकारों को एकीकृत किया है, जिससे मॉडल की व्याख्या क्षमता में सुधार हुआ है, और यह विभिन्न व्यावहारिक अनुप्रयोग परिदृश्यों के लिए उपयुक्त है।
यह मॉडल तीन प्रमुख घटकों से बना है: पहला दृश्य एन्कोडर है, जो दृश्य डेटा को प्रभावी ढंग से संसाधित और एन्कोड करने के लिए SigLIP का उपयोग करता है; दूसरा दृश्य भाषा कनेक्टर है, जो GELU सक्रियण फ़ंक्शन के साथ एक द्वि-स्तरीय मल्टीलेयर पर्सेप्ट्रॉन (MLP) है, जो दृश्य जानकारी और पाठ जानकारी को जोड़ने के लिए डिज़ाइन किया गया है; अंत में, यह एक बड़ा भाषा मॉडल है, जो Granite-3.1-2B-Instruct पर आधारित है, जिसमें 128k का संदर्भ लंबाई है, जो जटिल और विशाल इनपुट को संभालने में सक्षम है।
प्रशिक्षण प्रक्रिया के दौरान, Granite-Vision-3.1-2B ने LlaVA से प्रेरणा ली, और मल्टीलेयर एन्कोडर की विशेषताओं के साथ AnyRes में अधिक घनत्व वाली ग्रिड रिज़ॉल्यूशन को जोड़ा। इन सुधारों ने मॉडल की विस्तृत दृश्य सामग्री को समझने की क्षमता को बढ़ाया है, जिससे यह तालिकाओं और चार्टों का विश्लेषण करने, ऑप्टिकल कैरेक्टर रिकॉग्निशन (OCR) करने, और दस्तावेज़ आधारित प्रश्नों के उत्तर देने जैसे दृश्य दस्तावेज़ कार्यों को अधिक सटीकता से निष्पादित करने में सक्षम है।
मूल्यांकन परिणामों से पता चलता है कि Granite-Vision-3.1-2B ने कई बेंचमार्क परीक्षणों में उत्कृष्ट प्रदर्शन किया है, विशेष रूप से दस्तावेज़ समझने के क्षेत्र में। ChartQA बेंचमार्क परीक्षण में, इस मॉडल का स्कोर 0.86 है, जो 1B-4B रेंज के अन्य मॉडलों को पार कर गया है। TextVQA बेंचमार्क परीक्षण में, स्कोर 0.76 है, जो चित्र में निहित पाठ जानकारी को विश्लेषण और उत्तर देने की मजबूत क्षमता को दर्शाता है। ये परिणाम इस मॉडल की व्यावसायिक अनुप्रयोगों में सटीक दृश्य और पाठ डेटा प्रसंस्करण की क्षमता को उजागर करते हैं।
IBM का Granite-Vision-3.1-2B दृश्य भाषा मॉडल में एक महत्वपूर्ण प्रगति का प्रतिनिधित्व करता है, जो एक संतुलित दृश्य दस्तावेज़ समझने का समाधान प्रदान करता है। इसकी संरचना और प्रशिक्षण विधि इसे जटिल दृश्य और पाठ डेटा को प्रभावी ढंग से विश्लेषण और समझने में सक्षम बनाती है। ट्रांसफार्मर और vLLM के लिए इसके मूल समर्थन के कारण, यह मॉडल विभिन्न उपयोग मामलों के अनुकूल हो सकता है और Colab T4 जैसे क्लाउड वातावरण में तैनात किया जा सकता है, जिससे शोधकर्ताओं और पेशेवरों को एआई संचालित दस्तावेज़ प्रसंस्करण क्षमताओं को बढ़ाने का एक व्यावहारिक उपकरण मिलता है।
मॉडल: https://huggingface.co/ibm-granite/granite-vision-3.1-2b-preview
मुख्य बिंदु:
🌟 Granite-Vision-3.1-2B IBM द्वारा पेश किया गया एक छोटा दृश्य भाषा मॉडल है, जो दस्तावेज़ समझने के लिए डिज़ाइन किया गया है और विभिन्न दृश्य प्रारूपों के सामग्री निष्कर्षण को संभाल सकता है।
📊 मॉडल में दृश्य एन्कोडर, दृश्य भाषा कनेक्टर और बड़े भाषा मॉडल के तीन भाग शामिल हैं, जो जटिल इनपुट को समझने की क्षमता को बढ़ाते हैं।
🏆 कई बेंचमार्क परीक्षणों में उत्कृष्ट प्रदर्शन, विशेष रूप से दस्तावेज़ समझने के क्षेत्र में, व्यवसायिक अनुप्रयोगों की मजबूत क्षमता को दर्शाते हैं।