7 जुलाई को, बैजू की आईए टीम ने पैडलओसीआर 3.1 के आधिकारिक उत्सर्जन की घोषणा की, जिसमें बहुभाषी स्वीकृति, जटिल दस्तावेज परिचालन और बड़े मॉडल के एकीकरण में तीन मुख्य सुधार हुए। नई संस्करण 37 भाषाओं में पाठ की स्वीकृति का समर्थन करता है, औसत रूप से अधिक से अधिक 30% तक शुद्धता में सुधार। इसके अलावा, डॉक्यूमेंट अनुवाद के एक पाइपलाइन और डेवलपर्स के लिए एक MCP सर्वर फीचर पेश किया गया है जो आईए एप्लिकेशन के बनाने में दक्षता प्रदान करता है।

अंतरराष्ट्रीय परिदृश्य में बहुभाषी आवश्यकताओं के जवाब में, PaddleOCR 3.1 मल्टीलैंग्वल PP-OCRv5 मॉडल जोड़ता है, जो फ्रेंच, स्पैनिश और रूसी जैसी 37 भाषाओं को कवर करता है। ERNIE 4.5 बहुमाध्यमिक बड़े मॉडल की दृश्य और पाठ समझ क्षमताओं के साथ एकीकरण के माध्यम से, मॉडल ऊंचे विश्वास के साथ पाठ की खोज और डेटा अनोटेशन को स्वचालित कर सकता है, जिससे बहुभाषी डेटा की कमी की समस्या का समाधान होता है। परीक्षण डेटा दर्शाते हैं कि नया मॉडल लैटिन और पूर्वी स्लाव भाषाओं के परिदृश्य में पाठ स्वीकृति की शुद्धता में 30% से अधिक सुधार करता है। उदाहरण के लिए, कोरियाई पाठ स्वीकृति की त्रुटि दर 8.7% से 2.1% तक गिर गई, और रूसी व्यवस्था के साथ पूर्ण दस्तावेज प्रोसेसिंग की गति दोगुनी हो गई।

WeChat Screenshot_20250708091203.png

PP-StructureV3 डॉक्यूमेंट एनालिसिस इंजन और ERNIE बड़े मॉडल के साथ एकजुट, PaddleOCR 3.1 PP-DocTranslation पाइपलाइन पेश करता है। एक बुद्धिमान उपकरण, यह PDFs और छवियों में जटिल तत्वों जैसे टेबल, सूत्र और हस्तलिखित पाठ की बुद्धिमान रूप से पहचान कर सकता है और उन्हें मार्कडाउन फॉर्मेट में परिवर्तित कर सकता है जिससे बहुभाषी अनुवाद हो सके। विशेष रूप से कानून और चिकित्सा जैसे क्षेत्रों में, उपयोगकर्ता अवधारणा तालिका अपलोड कर सकते हैं ताकि "कुंजी शब्दों" के सटीक अनुवाद प्राप्त कर सकें। उदाहरण के लिए, इस फीचर का उपयोग करने के बाद, एक बहुराष्ट्रीय दवा कंपनी दवा निर्देशों के अनुवाद की दक्षता 40% तक बढ़ गई, विशेषज्ञ शब्दावली में 99.2% के संगतता पर पहुंच गई।

आईए एप्लिकेशन विकास की बाधाओं को कम करने के लिए, PaddleOCR 3.1 एमसीपी (मॉडल संदर्भ प्रोटोकॉल) सर्वर फीचर पेश करता है, जो एक मानकीकृत प्रोटोकॉल के माध्यम से निम्नलिखित एप्लिकेशन में OCR स्वीकृति क्षमता के आसानी से एकीकरण की अनुमति देता है। डेवलपर्स कुछ चरणों में एक एमसीपी सेवा तेजी से सेटअप कर सकते हैं, और पायथन स्थानीय प per लाइब्रेरी, पैडलपैडल के स्टार्री स्काई समुदाय या उनके द्वारा सेवा के साथ छवि पाठ स्वीकृति और दस्तावेज़ लेआउट विश्लेषण जैसे मुख्य कार्यों तक पहुंच सकते हैं।

ओपन सोर्स परियोजना का पता :https://github.com/PaddlePaddle/PaddleOCR