न्यूवेला (NVIDIA) ने Llama Nemotron Nano VL जारी किया: OCRBench में उच्च सटीकता वाले डॉक्युमेंट प्रोसेसिंग समाधान

AIbase基地

द्वारा प्रकाशितAI समाचार · 8 मिनट पढ़ें · Jun 5, 2025

NVIDIA ने 2025 मई 3 को Llama Nemotron Nano VL जारी किया, एक पेपर समझने वाले अत्यधिक बढ़िया विस्तार से विशिष्ट किए गए कॉम्पैक्ट विज़ुअल-लैंग्वेज मॉडल (VLM) है। इस मॉडल ने OCRBench v2 बेंचमार्क पर सबसे ऊपर पहुँचा, इसकी उत्कृष्ट क्षमता को दिखाते हुए कि यह कैसे जटिल पेपर, चार्ट और वीडियो फ्रेम का प्रबंधन करता है। इसके कुशल शीर्षशल्य प्रदर्शन और लचीले तैनाती तकनीक के साथ, Llama Nemotron Nano VL ने व्यवसायों को क्लाउड से तक लेकर किनारे डिवाइस तक परिष्कृत पेपर प्रोसेसिंग समाधान प्रदान किया।

Llama Nemotron Nano VL: संकुचित और बढ़िया पेपर प्रोसेसिंग उपकरण

Llama Nemotron Nano VL Meta के Llama3.1 आर्किटेक्चर पर आधारित है, जिसमें लाइटवेट विज़ुअल एन्कोडर CRadioV2-H भी शामिल है, जिसका पैरामीटर आकार केवल 8B है, फिर भी यह पेपर समझने वाली कार्यप्रदर्शन में बहुत अच्छा प्रदर्शन करता है। इस मॉडल का समर्थन मल्टीमोडल प्रवेश के साथ होता है, जो मल्टीपेज पेपर, स्कैन टेबल, वित्तीय रिपोर्ट और तकनीकी चार्ट जैसी जटिल स्थितियों को कवर करता है, कॉन्टेक्स्ट लेंथ 16K tokens तक होता है, जो लंबे पेपर प्रोसेसिंग और मल्टीज़्प्रिंग निर्णय लेने वाले टास्क के लिए उपयुक्त है।

इसका मुख्य विशेषता केवल कुशल शीर्षशल्य प्रदर्शन है, जो AWQ4bit क्वांटाइज़ेशन तकनीक के साथ ऑपरेट करता है, जिससे यह मॉडल NVIDIA RTX GPU या Jetson Orin के एक ही ब्लॉक पर चल सकता है, जो तैनाती की लागत को काफी कम करता है। इससे Llama Nemotron Nano VL वीज़ुअल एजेंट्स के रन के लिए संसाधन सीमित परिसर में काम करने वाले व्यवसायों के लिए एक अच्छा विकल्प है।

OCRBench v2 पर शीर्ष, पेपर विश्लेषण क्षमता नेतृत्व

Llama Nemotron Nano VL OCRBench v2 बेंचमार्क पर सबसे अधिक स्कोर प्राप्त करता है, जो इसकी समान शैक्षणिक विशेषता से भी बेहतर है। OCRBench v2 में 10,000 से अधिक मानव-संशोधित प्रश्न-उत्तर जोड़े शामिल हैं, जो वित्तीय, चिकित्सा, कानूनी और वैज्ञानिक प्रकाशन जैसे क्षेत्रों के पेपर को कवर करते हैं, जिसमें प्रभावित टेक्स्ट विश्लेषण (OCR), टेबल प्रसंस्करण और चार्ट विश्लेषण शामिल हैं।

इस मॉडल के चार्ट और की-वैल्यू पेयर के जैसी संरचित डेटा निकालने और प्रश्नों के आधार पर जवाब देने में बहुत अच्छा प्रदर्शन है, विशेष रूप से अंग्रेजी के बाहर दस्तावेज़ों और निम्न गुणवत्ता स्कैन के मामलों में। इसकी उच्च सटीकता और सामान्यीकरण क्षमता इसे स्वचालित पेपर प्रश्न-उत्तर, बुद्धिमान OCR और जानकारी निकालने जैसी स्थितियों में व्यापक उपयोग की संभावना देती है।

लचीले तैनाती, व्यवसायों के कई स्केलिंग के लिए प्रेरित

Llama Nemotron Nano VL सेंटरल डेटा से किनारे डिवाइस तक की लचीली तैनाती का समर्थन करता है, NVIDIA TensorRT-LLM फ़्रेमवर्क के साथ सुसंगत है, जिससे यह GPU एक्सेलरेटेड सिस्टम पर अच्छे प्रदर्शन से चल पाएगा। व्यवसायों को NVIDIA NeMo माइक्रोसर्विस के माध्यम से इसे विशेष क्षेत्र की जरूरतों के अनुसार लालायित कर सकते हैं, जैसे वित्तीय विश्लेषण, चिकित्सा रिकॉर्ड प्रोसेसिंग या कानूनी पेपरों की समीक्षा।

इसके अलावा, यह मॉडल सिंगल इमेज और वीडियो प्रश्न-उत्तर का समर्थन करता है, जो इमेज सारांश, टेक्स्ट-इमेज विश्लेषण और इंटरैक्टिव प्रश्न-उत्तर जैसी कार्यों के लिए उपयोगी है। इसकी ओपन सोर्स विशेषता (NVIDIA Open Model License और Llama3.1 Community License के तहत) व्यावसायिक उपयोग को सुनिश्चित करती है, जिससे डेवलपर्स को विशेषज्ञ AI एजेंट बनाने की स्वतंत्रता मिलती है।

NVIDIA का इंटेलिजेंट एजेंट्स के क्षेत्र में रणनीतिक विकास

Llama Nemotron Nano VL NVIDIA Nemotron मॉडल परिवार का महत्वपूर्ण घटक है, जो इंटेलिजेंट एजेंट्स (Agentic AI) के क्षेत्र में लगातार निवेश को दर्शाता है। Meta आर्किटेक्चर के साथ NVIDIA के अपग्रेड तकनीकों के संयोजन से, यह मॉडल न केवल प्रश्न-उत्तर प्रदर्शन में सुधार किया, बल्कि पेपर प्रोसेसिंग क्षेत्र में नई शिखरों को बनाए रखता है।

NVIDIA ने भी NeMo फ़्रेमवर्क और NIM माइक्रोसर्विस के माध्यम से इस मॉडल की क्षमता को विस्तारित करने की योजना बनाई है, जो अधिक मल्टीमोडल टास्कों का समर्थन करता है, जैसे वीडियो सर्च और भौतिक संवेदनशील वीडियो जनरेशन। यह NVIDIA की पूरे AI एकाडमी का निर्माण करने की कोशिश कर रहा है, जो व्यवसायों की डिजिटल ट्रांसफॉर्मेशन के लिए मजबूत समर्थन प्रदान करता है।

Llama Nemotron Nano VL का जारी करने से संकुचित विज़ुअल-लैंग्वेज मॉडलों के व्यावसायिक उपयोग में नई चुनौतियों की शुरुआत हुई है। इसकी कुशलता और उच्च सटीकता ने ऑटोमेटेड पेपर प्रोसेसिंग, ज्ञान प्रबंधन और बुद्धिमान सहयोग के लिए नई संभावनाएं खोली हैं। AIbase ने NVIDIA के AI क्षेत्र में नवीनतम विकासों का अनुसरण जारी रखने का वादा किया है, जो पाठकों को प्राथमिक तकनीकी अंदाज़ देगा।

एंट्री: https://huggingface.co/nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1

LlamaNemotronNanoVL न्यूवेला (NVIDIA)OCRBenchv2 MetaLlama3.1

यह लेख AIbase दैनिक से है

【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।

—— AIbase दैनिक समूह द्वारा बनाया गया

360 दुनिया के पहले L2-L4 स्टैक बुद्धिमान प्लेटफॉर्म के लॉन्च के साथ! सरकारी और उद्यमी एआई बदलाव के ओपन-बॉक्स-इन-इस्तेमाल के युग में प्रवेश करते हैं

360 ग्रुप ने एंटरप्राइज AI प्लेटफॉर्म लॉन्च किया, जो L2 से L4 तक की क्षमताओं वाला दुनिया का पहला ऑपरेटिंग सिस्टम है। SEAF फैक्ट्री को अपग्रेड करके सरकार और व्यवसायों के लिए वन-स्टॉप AI समाधान प्रदान करता है।....

Oct 29, 2025

110

मिनीमैक्स द्वारा M2 अनुमान बड़े मॉडल प्रस्तुत किया गया: 230 बिलियन पैरामीटर, 100 टोकन/सेकंड स्मार्ट एजेंट के लिए डिज़ाइन किया गया

MiniMax ने नया ओपन-सोर्स मॉडल M2 लॉन्च किया, जो 2300 अरब पैरामीटर्स के साथ स्मार्ट एजेंट के लिए डिज़ाइन किया गया है। यह प्रति सेकंड 100 टोकन की तेज़ गति से काम करता है, जो रीयल-टाइम इंटरेक्शन के लिए आदर्श है।....

Oct 28, 2025

140

मिनीमैक ओपन सोर्स M2 मॉडल: उच्च प्रदर्शन आईएआई कोडिंग और एजेंट सक्षम है, प्रतिद्वंद्वी के केवल 8% लागत

2025 के 27 अक्टूबर को, मिनीमैक बड़ा भाषा मॉडल मिनीमैक M2 ओपन सोर्स किया गया। इस मॉडल का डिज़ाइन एजेंट कार्य प्रवाह और एंड-टू-एंड कोडिंग के लिए किया गया है, MoE आर्किटेक्चर का उपयोग करता है, दक्षता और प्रदर्शन उत्कृष्ट है: क्लॉड सोनेट के केवल 8% लागत, गति लगभग दो गुना बढ़ गई, डेवलपर्स और व्यवसाय के लिए लाभदायक आईएआई समाधान है।

Oct 27, 2025

AI छवि संपादन में अभूतपूर्व प्रगति! बाइट डाउन और हांग कॉन्ग में एक साथ स्वतंत्र ड्रीमोम्नी2 AI अब अमूर्त अवधारणाओं के बुझाने की समस्या हल करता है

बाइटडांस ने हांगकांग की तीन यूनिवर्सिटी के साथ मिलकर DreamOmni2 सिस्टम ओपन-सोर्स किया। यह AI इमेज एडिटिंग में क्रांतिकारी सुधार लाता है, टेक्स्ट और इमेज दोनों को एक साथ प्रोसेस करता है, जिससे इमेज जनरेशन तकनीक का विकास हो रहा है।....

Oct 27, 2025

150

AI दैनिक: टेंग्यून ने एक नई IMA2.0 जारी की; माइक्रोसॉफ्ट ने Copilot के साथ एक शक्तिशाली अपडेट जारी किया; अलीबाबा क्वार्क AI चश्मा डिलीवरी के लिए उपलब्ध है

【AI दैनिक】 चंद्रमा के अंधेरे ने Kimi k2 मॉडल के प्रदर्शन के लिए तारीफ मिली GPT-5 से आगे, और इस कंपनी ने अपने अगले नए खंड में सैकड़ों मिलियन डॉलर के निवेश के साथ करीब चार महीने में निवेश के बाद। घरेलू AI बड़े मॉडल क्षेत्र में लगातार गर्म है, डेवलपर्स प्लेटफॉर्म के माध्यम से नवीनतम उत्पाद अपडेट के बारे में जान सकते हैं।

Oct 24, 2025

180

विडू क्यू2 रेफरेंस स्टूडियो मास प्लेटफॉर्म पूरी तरह से एपीआई के लिए खुला है

हाल ही में, स्टूडियो ने विडू क्यू2 रेफरेंस वीडियो बड़ा मॉडल एपीआई के पूर्ण रूप से एक्सेस के लिए घोषणा की, जो आईए वीडियो जनरेशन तकनीक के 'उपयोगी' से 'शिल्प' तक अहम कदम को दर्शाता है। विडू क्यू2 अत्यधिक संगतता बनाए रखने में अद्वितीय मूल्य दिखाता है, विशेष रूप से विज्ञापन, उत्पाद प्रदर्शन के क्षेत्रों में, न केवल उत्पाद विवरण को बिल्कुल बरकरार रख सकता है, बल्कि आईए वीडियो में भावनात्मक प्रस्तुति को भी जोड़ सकता है, जो ब्रांड के प्रति प्रतिकूलता और उपयोगकर्ता रूपांतरण को बढ़ा सकता है। विडू क्यू2 के उत्सर्ग ने इंटरैक्टिव मनोरंजन, एनिमेशन, विज्ञापन ई-कॉमर्स उद्योग के लिए एक नई दिशा दी है।

Oct 23, 2025

140

बैजियांग ने नवीनतम चिकित्सा मॉडल M2Plus पेश किया, जो चिकित्सा भ्रम दर में गंभीर रूप से कम हो गई है

बैजियांग मॉडल ने चिकित्सा मॉडल Baichuan-M2Plus लॉन्च किया, जिसके अपनाने के लिए बैजियांग छोटा एसएस का अपग्रेड किया गया है और API इंटरफ़ेस खोला गया है। परीक्षण में, इस मॉडल की चिकित्सा भ्रम दर आम मॉडल की तुलना में गंभीर रूप से कम है, जो DeepSeek की तुलना में लगभग तीन गुना कम है, अमेरिकी OpenEvidence एप्लिकेशन के मुकाबले बेहतर प्रदर्शन करता है।

Oct 22, 2025

150

एआई डेली: ओपनएआई ने ब्राउज़र एटलस जारी किया; टॉंगई क्वेन 3-वीएल में 2 बिलियन, 32 बिलियन मॉडल साइज जोड़े गए; बाइशुन ने पुनरावर्ती साक्ष्य बढ़ाने वाले बड़े मॉडल जारी किए

OpenAI ने ChatGPT Atlas ब्राउज़र लॉन्च किया, जो AI असिस्टेंट के साथ Chrome को चुनौती देता है। हर टैब में एजेंट मोड से स्मार्ट इंटरैक्शन, इंटरनेट प्लेटफॉर्म बनने की महत्वाकांक्षा दिखाता है।....

Oct 22, 2025

बेनचुआन ने संचालित साक्ष्य बढ़ाने वाले मॉडल M2Plus जारी किया, डॉक्टर के लिए चैटजीपीटी बनाएं

बाइचुआन ने Baichuan-M2Plus मेडिकल मॉडल लॉन्च किया, जिसमें मेडिकल हॉल्यूसिनेशन दर सामान्य मॉडल्स से काफी कम है। यह DeepSeek से 3 गुना बेहतर और OpenEvidence को पीछे छोड़ता है। नई तकनीक से मेडिकल प्रश्नों के जवाबों की सटीकता बढ़ी है।....

Oct 22, 2025

140

अली टोंगyi Qwen3-VL में 2B, 32B दो मॉडल आकार जोड़े गए हैं फोन में सुविधापूर्वक चलाया जा सकता है

अलीबाबा के टोंगई कियानवेन ने Qwen3-VL के 2B और 32B मॉडल जोड़े, जो हल्के से हाई-परफॉर्मेंस विज़न-लैंग्वेज कार्यों को कवर करते हैं और मोबाइल डिवाइस पर चल सकते हैं। इंस्ट्रक्ट मॉडल तेज़ और स्थिर है, जबकि थिंकिंग मॉडर तर्क पर केंद्रित है। विकास सुविधा और लचीलेपन में सुधार।....

Oct 22, 2025

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Brand Visibility

AI Brand Monitoring Tool

AI Search Visibility Checker

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Services​

AI Model Compatibility Checker

AI Deployment Calculator

न्यूवेला (NVIDIA) ने Llama Nemotron Nano VL जारी किया: OCRBench में उच्च सटीकता वाले डॉक्युमेंट प्रोसेसिंग समाधान

AIbase基地

यह लेख AIbase दैनिक से है

संबंधित AI समाचार अनुशंसाएँ

मिनीमैक ओपन सोर्स M2 मॉडल: उच्च प्रदर्शन आईएआई कोडिंग और एजेंट सक्षम है, प्रतिद्वंद्वी के केवल 8% लागत

विडू क्यू2 रेफरेंस स्टूडियो मास प्लेटफॉर्म पूरी तरह से एपीआई के लिए खुला है

बैजियांग ने नवीनतम चिकित्सा मॉडल M2Plus पेश किया, जो चिकित्सा भ्रम दर में गंभीर रूप से कम हो गई है

बेनचुआन ने संचालित साक्ष्य बढ़ाने वाले मॉडल M2Plus जारी किया, डॉक्टर के लिए चैटजीपीटी बनाएं

अली टोंगyi Qwen3-VL में 2B, 32B दो मॉडल आकार जोड़े गए हैं फोन में सुविधापूर्वक चलाया जा सकता है

संबंधित AI समाचार अनुशंसाएँ

मिनीमैक ओपन सोर्स M2 मॉडल: उच्च प्रदर्शन आईएआई कोडिंग और एजेंट सक्षम है, प्रतिद्वंद्वी के केवल 8% लागत

विडू क्यू2 रेफरेंस स्टूडियो मास प्लेटफॉर्म पूरी तरह से एपीआई के लिए खुला है

बैजियांग ने नवीनतम चिकित्सा मॉडल M2Plus पेश किया, जो चिकित्सा भ्रम दर में गंभीर रूप से कम हो गई है

बेनचुआन ने संचालित साक्ष्य बढ़ाने वाले मॉडल M2Plus जारी किया, डॉक्टर के लिए चैटजीपीटी बनाएं

अली टोंगyi Qwen3-VL में 2B, 32B दो मॉडल आकार जोड़े गए हैं फोन में सुविधापूर्वक चलाया जा सकता है

GEO Services