7 जुलाई को, बैजू की आईए टीम ने पैडलओसीआर 3.1 के आधिकारिक उत्सर्जन की घोषणा की, जिसमें बहुभाषी स्वीकृति, जटिल दस्तावेज परिचालन और बड़े मॉडल के एकीकरण में तीन मुख्य सुधार हुए। नई संस्करण 37 भाषाओं में पाठ की स्वीकृति का समर्थन करता है, औसत रूप से अधिक से अधिक 30% तक शुद्धता में सुधार। इसके अलावा, डॉक्यूमेंट अनुवाद के एक पाइपलाइन और डेवलपर्स के लिए एक MCP सर्वर फीचर पेश किया गया है जो आईए एप्लिकेशन के बनाने में दक्षता प्रदान करता है।
अंतरराष्ट्रीय परिदृश्य में बहुभाषी आवश्यकताओं के जवाब में, PaddleOCR 3.1 मल्टीलैंग्वल PP-OCRv5 मॉडल जोड़ता है, जो फ्रेंच, स्पैनिश और रूसी जैसी 37 भाषाओं को कवर करता है। ERNIE 4.5 बहुमाध्यमिक बड़े मॉडल की दृश्य और पाठ समझ क्षमताओं के साथ एकीकरण के माध्यम से, मॉडल ऊंचे विश्वास के साथ पाठ की खोज और डेटा अनोटेशन को स्वचालित कर सकता है, जिससे बहुभाषी डेटा की कमी की समस्या का समाधान होता है। परीक्षण डेटा दर्शाते हैं कि नया मॉडल लैटिन और पूर्वी स्लाव भाषाओं के परिदृश्य में पाठ स्वीकृति की शुद्धता में 30% से अधिक सुधार करता है। उदाहरण के लिए, कोरियाई पाठ स्वीकृति की त्रुटि दर 8.7% से 2.1% तक गिर गई, और रूसी व्यवस्था के साथ पूर्ण दस्तावेज प्रोसेसिंग की गति दोगुनी हो गई।
PP-StructureV3 डॉक्यूमेंट एनालिसिस इंजन और ERNIE बड़े मॉडल के साथ एकजुट, PaddleOCR 3.1 PP-DocTranslation पाइपलाइन पेश करता है। एक बुद्धिमान उपकरण, यह PDFs और छवियों में जटिल तत्वों जैसे टेबल, सूत्र और हस्तलिखित पाठ की बुद्धिमान रूप से पहचान कर सकता है और उन्हें मार्कडाउन फॉर्मेट में परिवर्तित कर सकता है जिससे बहुभाषी अनुवाद हो सके। विशेष रूप से कानून और चिकित्सा जैसे क्षेत्रों में, उपयोगकर्ता अवधारणा तालिका अपलोड कर सकते हैं ताकि "कुंजी शब्दों" के सटीक अनुवाद प्राप्त कर सकें। उदाहरण के लिए, इस फीचर का उपयोग करने के बाद, एक बहुराष्ट्रीय दवा कंपनी दवा निर्देशों के अनुवाद की दक्षता 40% तक बढ़ गई, विशेषज्ञ शब्दावली में 99.2% के संगतता पर पहुंच गई।
आईए एप्लिकेशन विकास की बाधाओं को कम करने के लिए, PaddleOCR 3.1 एमसीपी (मॉडल संदर्भ प्रोटोकॉल) सर्वर फीचर पेश करता है, जो एक मानकीकृत प्रोटोकॉल के माध्यम से निम्नलिखित एप्लिकेशन में OCR स्वीकृति क्षमता के आसानी से एकीकरण की अनुमति देता है। डेवलपर्स कुछ चरणों में एक एमसीपी सेवा तेजी से सेटअप कर सकते हैं, और पायथन स्थानीय प per लाइब्रेरी, पैडलपैडल के स्टार्री स्काई समुदाय या उनके द्वारा सेवा के साथ छवि पाठ स्वीकृति और दस्तावेज़ लेआउट विश्लेषण जैसे मुख्य कार्यों तक पहुंच सकते हैं।
ओपन सोर्स परियोजना का पता :https://github.com/PaddlePaddle/PaddleOCR