NVIDIA ने 2025 मई 3 को Llama Nemotron Nano VL जारी किया, एक पेपर समझने वाले अत्यधिक बढ़िया विस्तार से विशिष्ट किए गए कॉम्पैक्ट विज़ुअल-लैंग्वेज मॉडल (VLM) है। इस मॉडल ने OCRBench v2 बेंचमार्क पर सबसे ऊपर पहुँचा, इसकी उत्कृष्ट क्षमता को दिखाते हुए कि यह कैसे जटिल पेपर, चार्ट और वीडियो फ्रेम का प्रबंधन करता है। इसके कुशल शीर्षशल्य प्रदर्शन और लचीले तैनाती तकनीक के साथ, Llama Nemotron Nano VL ने व्यवसायों को क्लाउड से तक लेकर किनारे डिवाइस तक परिष्कृत पेपर प्रोसेसिंग समाधान प्रदान किया।
Llama Nemotron Nano VL: संकुचित और बढ़िया पेपर प्रोसेसिंग उपकरण
Llama Nemotron Nano VL Meta के Llama3.1 आर्किटेक्चर पर आधारित है, जिसमें लाइटवेट विज़ुअल एन्कोडर CRadioV2-H भी शामिल है, जिसका पैरामीटर आकार केवल 8B है, फिर भी यह पेपर समझने वाली कार्यप्रदर्शन में बहुत अच्छा प्रदर्शन करता है। इस मॉडल का समर्थन मल्टीमोडल प्रवेश के साथ होता है, जो मल्टीपेज पेपर, स्कैन टेबल, वित्तीय रिपोर्ट और तकनीकी चार्ट जैसी जटिल स्थितियों को कवर करता है, कॉन्टेक्स्ट लेंथ 16K tokens तक होता है, जो लंबे पेपर प्रोसेसिंग और मल्टीज़्प्रिंग निर्णय लेने वाले टास्क के लिए उपयुक्त है।
इसका मुख्य विशेषता केवल कुशल शीर्षशल्य प्रदर्शन है, जो AWQ4bit क्वांटाइज़ेशन तकनीक के साथ ऑपरेट करता है, जिससे यह मॉडल NVIDIA RTX GPU या Jetson Orin के एक ही ब्लॉक पर चल सकता है, जो तैनाती की लागत को काफी कम करता है। इससे Llama Nemotron Nano VL वीज़ुअल एजेंट्स के रन के लिए संसाधन सीमित परिसर में काम करने वाले व्यवसायों के लिए एक अच्छा विकल्प है।
OCRBench v2 पर शीर्ष, पेपर विश्लेषण क्षमता नेतृत्व
Llama Nemotron Nano VL OCRBench v2 बेंचमार्क पर सबसे अधिक स्कोर प्राप्त करता है, जो इसकी समान शैक्षणिक विशेषता से भी बेहतर है। OCRBench v2 में 10,000 से अधिक मानव-संशोधित प्रश्न-उत्तर जोड़े शामिल हैं, जो वित्तीय, चिकित्सा, कानूनी और वैज्ञानिक प्रकाशन जैसे क्षेत्रों के पेपर को कवर करते हैं, जिसमें प्रभावित टेक्स्ट विश्लेषण (OCR), टेबल प्रसंस्करण और चार्ट विश्लेषण शामिल हैं।
इस मॉडल के चार्ट और की-वैल्यू पेयर के जैसी संरचित डेटा निकालने और प्रश्नों के आधार पर जवाब देने में बहुत अच्छा प्रदर्शन है, विशेष रूप से अंग्रेजी के बाहर दस्तावेज़ों और निम्न गुणवत्ता स्कैन के मामलों में। इसकी उच्च सटीकता और सामान्यीकरण क्षमता इसे स्वचालित पेपर प्रश्न-उत्तर, बुद्धिमान OCR और जानकारी निकालने जैसी स्थितियों में व्यापक उपयोग की संभावना देती है।
लचीले तैनाती, व्यवसायों के कई स्केलिंग के लिए प्रेरित
Llama Nemotron Nano VL सेंटरल डेटा से किनारे डिवाइस तक की लचीली तैनाती का समर्थन करता है, NVIDIA TensorRT-LLM फ़्रेमवर्क के साथ सुसंगत है, जिससे यह GPU एक्सेलरेटेड सिस्टम पर अच्छे प्रदर्शन से चल पाएगा। व्यवसायों को NVIDIA NeMo माइक्रोसर्विस के माध्यम से इसे विशेष क्षेत्र की जरूरतों के अनुसार लालायित कर सकते हैं, जैसे वित्तीय विश्लेषण, चिकित्सा रिकॉर्ड प्रोसेसिंग या कानूनी पेपरों की समीक्षा।
इसके अलावा, यह मॉडल सिंगल इमेज और वीडियो प्रश्न-उत्तर का समर्थन करता है, जो इमेज सारांश, टेक्स्ट-इमेज विश्लेषण और इंटरैक्टिव प्रश्न-उत्तर जैसी कार्यों के लिए उपयोगी है। इसकी ओपन सोर्स विशेषता (NVIDIA Open Model License और Llama3.1 Community License के तहत) व्यावसायिक उपयोग को सुनिश्चित करती है, जिससे डेवलपर्स को विशेषज्ञ AI एजेंट बनाने की स्वतंत्रता मिलती है।
NVIDIA का इंटेलिजेंट एजेंट्स के क्षेत्र में रणनीतिक विकास
Llama Nemotron Nano VL NVIDIA Nemotron मॉडल परिवार का महत्वपूर्ण घटक है, जो इंटेलिजेंट एजेंट्स (Agentic AI) के क्षेत्र में लगातार निवेश को दर्शाता है। Meta आर्किटेक्चर के साथ NVIDIA के अपग्रेड तकनीकों के संयोजन से, यह मॉडल न केवल प्रश्न-उत्तर प्रदर्शन में सुधार किया, बल्कि पेपर प्रोसेसिंग क्षेत्र में नई शिखरों को बनाए रखता है।
NVIDIA ने भी NeMo फ़्रेमवर्क और NIM माइक्रोसर्विस के माध्यम से इस मॉडल की क्षमता को विस्तारित करने की योजना बनाई है, जो अधिक मल्टीमोडल टास्कों का समर्थन करता है, जैसे वीडियो सर्च और भौतिक संवेदनशील वीडियो जनरेशन। यह NVIDIA की पूरे AI एकाडमी का निर्माण करने की कोशिश कर रहा है, जो व्यवसायों की डिजिटल ट्रांसफॉर्मेशन के लिए मजबूत समर्थन प्रदान करता है।
Llama Nemotron Nano VL का जारी करने से संकुचित विज़ुअल-लैंग्वेज मॉडलों के व्यावसायिक उपयोग में नई चुनौतियों की शुरुआत हुई है। इसकी कुशलता और उच्च सटीकता ने ऑटोमेटेड पेपर प्रोसेसिंग, ज्ञान प्रबंधन और बुद्धिमान सहयोग के लिए नई संभावनाएं खोली हैं। AIbase ने NVIDIA के AI क्षेत्र में नवीनतम विकासों का अनुसरण जारी रखने का वादा किया है, जो पाठकों को प्राथमिक तकनीकी अंदाज़ देगा।
एंट्री: https://huggingface.co/nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1