हाल ही में, 1.7 बिलियन पैरामीटर वाले एक लघु दृश्य-भाषा मॉडल, dots.ocr ने AI क्षेत्र में ध्यान आकर्षित किया। इसकी अद्वितीय क्षमता और एकीकृत बुनियादी डिटेक्शन और OCR क्षमता के कारण, यह दस्तावेज प्रोसेसिंग क्षेत्र में एक नई उभरती हुई शक्ति बन गई है।

हल्का और कुशल: 1.7 बिलियन पैरामीटर से SOTA प्रदर्शन

dots.ocr केवल 1.7 बिलियन पैरामीटर वाले भाषा मॉडल पर आधारित है, जबकि कई अन्य दस्तावेज पाठ परिचालन उपकरण बड़े मॉडल पर निर्भर करते हैं। इसकी तेज तर्क क्षमता है, जिसके कारण एक पृष्ठ के PDF को केवल कुछ सेकंड में पूरा कर देता है। हालांकि, मॉडल का आकार छोटा है, dots.ocr टेक्स्ट, टेबल और पढ़ने के क्रम में अच्छा प्रदर्शन करता है और उद्योग में अग्रणी (SOTA) स्तर तक पहुंच गया है। इसकी सूत्र पहचान क्षमता यहां तक कि Doubao-1.5 और gemini2.5-pro जैसे बड़े मॉडल के साथ तुलना कर सकती है। इस उच्च क्षमता के कारण यह विकासकर्ता और व्यवसाय के लिए आदर्श विकल्प बन गया है।

image.png

बहुभाषीय समर्थन: सैकड़ों भाषाओं की शक्ति

dots.ocr बहुभाषीय दस्तावेज पाठ परिचालन में उत्कृष्ट प्रदर्शन करता है, विशेष रूप से कम संसाधन भाषाओं के साथ उल्लेखनीय लाभ प्रदर्शित करता है। मॉडल चीनी, अंग्रेजी आदि 100 भाषाओं के समर्थन में है, जो बहुभाषीय दस्तावेजों में टेक्स्ट और बुनियादी तत्वों की सटीक पहचान कर सकता है। बहुभाषीय मिश्रित दस्तावेज के साथ-साथ जटिल भाषा परिवेश के सामना करने में, dots.ocr स्थिर पाठ परिचालन प्रदान करता है, जो वैश्विक अनुप्रयोग के लिए मजबूत समर्थन प्रदान करता है।

सटीक बुनियादी डिटेक्शन: दस्तावेज तत्वों का पूर्ण विश्लेषण

दस्तावेज बुनियादी डिटेक्शन में, dots.ocr की अद्वितीय क्षमता है। मॉडल दस्तावेज में शीर्षक, पैराग्राफ, चित्र, टेबल आदि बुनियादी तत्वों की सटीक पहचान कर सकता है और उनके स्थान और श्रेणी की निश्चित निर्धारण कर सकता है। इसके एकीकृत दृश्य-भाषा संरचना के कारण, dots.ocr पारंपरिक बहु-मॉडल पाइपलाइन के कारण होने वाली जटिलता से बचता है, प्रक्रिया को सरल बनाता है और पाठ के सही क्रम को बनाए रखता है, जिससे पाठ परिचालन परिणाम दस्तावेज के तार्किक संरचना के अनुरूप होते हैं।

image.png

टेबल और सूत्र परिचालन: उच्च सटीकता और फॉर्मेट बरकरार रखना

टेबल और सूत्र परिचालन में, dots.ocr का प्रदर्शन विशेष रूप से उल्लेखनीय है। मॉडल टेबल के सीमा, सेल स्थान और सामग्री की सटीक पहचान कर सकता है और परिणाम बहुत अच्छी तरह से सटीक होते हैं, जो उच्च संरचनात्मक डेटा आवश्यकताओं वाले वातावरण में उपयुक्त है। सूत्र पहचान में, dots.ocr जटिल गणितीय सूत्रों के साथ-साथ मूल बुनियादी डिटेक्शन को बरकरार रख सकता है और LaTeX फॉर्मेट में निर्यात कर सकता है, जो शैक्षिक अनुसंधान और विशेष दस्तावेज प्रोसेसिंग के लिए बहुत उपयोगी है। हालांकि, विशिष्ट विवरणों के साथ उत्तरदायित्व के क्षेत्र में अभी अपग्रेड की आवश्यकता है, लेकिन इसका समग्र प्रदर्शन उद्योग के शीर्ष मॉडल के साथ तुलना कर सकता है।

अनुप्रयोग क्षेत्र और सीमाएं

dots.ocr की तेज प्रक्रिया क्षमता और बहु-फ़ंक्शनल सुविधाओं के कारण इसका व्यापक अनुप्रयोग क्षेत्र है, जैसे दस्तावेज डिजिटलीकरण, शैक्षिक अनुसंधान, डेटा निकालना आदि। हालांकि, वर्तमान मॉडल उच्च जटिलता वाले टेबल और सूत्रों के साथ अभी तक पूर्ण रूप से अनुकूलित नहीं है, और छवि सामग्री के पाठ परिचालन का समर्थन अभी तक उपलब्ध नहीं है। इसके अलावा, जब दस्तावेज में अक्षर पिक्सल अनुपात अधिक होता है या लगातार विशेष अक्षर (जैसे अल्पविराम या अंडरस्कोर) शामिल होते हैं, तो पाठ परिचालन समस्या हो सकती है। इसके लिए छवि रिजॉल्यूशन को समायोजित करने या विशिष्ट संकेत शब्दों का उपयोग करके परिणाम बेहतर बनाने की सलाह दी जाती है। विकास टीम ने घोषणा की है कि आगे के अपग्रेड में मॉडल को बेहतर बनाया जाएगा, टेबल और सूत्र परिचालन क्षमता को बढ़ाएगा और अधिक सामान्य दृश्य-भाषा संवेदनशील मॉडल की खोज करेगा।

दस्तावेज पाठ परिचालन क्षेत्र में नवाचार का मानक

हम मानते हैं कि dots.ocr के लॉन्च से दस्तावेज पाठ परिचालन प्रौद्योगिकी के नए स्तर पर पहुंच गई है। इसके हल्का डिज़ाइन, एकीकृत संरचना और बहुभाषीय समर्थन ने पारंपरिक OCR उपकरणों के सीमाओं को तोड़ दिया है, विकासकर्ताओं के लिए अधिक कुशल और लचीला समाधान प्रदान करता है। भविष्य में, मॉडल के उच्च थ्रूपुट प्रोसेसिंग और जटिल परिस्थितियों के समर्थन में आगे के अपग्रेड के साथ, dots.ocr दस्तावेज स्मार्टीकरण के मुख्य उपकरण बन जाएगा। समाप्ति dots.ocr के 1.7 बिलियन पैरामीटर के हल्के आर्किटेक्चर, उत्कृष्ट बहुभाषीय पाठ परिचालन क्षमता और उच्च गति प्रक्रिया के कारण, यह दस्तावेज प्रोसेसिंग क्षेत्र में नई ऊर्जा प्रदान करता है। सटीक बुनियादी डिटेक्शन से लेकर शक्तिशाली टेबल और सूत्र परिचालन तक, यह मॉडल AI चालित दस्तावेज परिचालन अनुभव को पुनर्निर्मित कर रहा है।