Am 20. Mai 2025 veröffentlichte das PaddleOCR-Team von Baidu die Version 3.0 des PaddleOCR und öffnete sie für die Öffentlichkeit. Diese neue Version hat bedeutende Fortschritte in der Texterkennungsgenauigkeit, der Unterstützung mehrerer Sprachen, der Handschriftenerkennung sowie der hochpräzisen Dokumentenanalyse erzielt und hebt damit die technische Leistungsfähigkeit und den Anwendungswert von PaddleOCR im OCR-Bereich weiter an.
Seit seiner Veröffentlichung hat sich PaddleOCR durch seine wissenschaftlich fortschrittlichen Algorithmen und praxisorientierte Implementierungen sowohl in Forschung als auch in der Industrie großer Beliebtheit erfreut und wird in zahlreiche bekannte Open-Source-Projekte integriert. Die veröffentlichte Version 3.0 ist vollständig mit der offiziellen Version 3.0 von PaddlePaddle kompatibel. Neben der Verbesserung der Texterkennungsgenauigkeit unterstützt sie auch die Erkennung verschiedener Texttypen und Handschriften, um komplexe Dokumentenanalysen mit hoher Präzision zu ermöglichen. Zusätzlich steigerte die Kombination mit dem Wénxīn-Datenversion 4.5Turbo die Präzision bei der Extraktion kritischer Informationen und fügte Unterstützung für nationale Hardware wie Kunlun-Chip und Ascend hinzu.
Eines der Kernmerkmale von PaddleOCR 3.0 ist das allumfassende Texterkennungsmodell PP-OCRv5. Dieses Modell ermöglicht die Erkennung von fünf Textarten - vereinfachtes Chinesisch, traditionelles Chinesisch, Chinesische Umlaute, Englisch und Japanisch – sowie der Erkennung komplexer Textsituationen wie Handschrift, vertikalen Schriftsatz, Umlaute und selten vorkommenden Zeichen. Im Vergleich zur Vorgänger-Version stieg die Gesamtgenauigkeit um 13 Prozentpunkte, was einen Spitzenplatz in der Branche erreichte. Durch eine einheitliche Modellarbeitstechnik wurden verschiedene Texttypen nahtlos erkannt, was die Installation vereinfachte und die Gesamtgenauigkeit und Geschwindigkeit erhöhte.
Im Bereich der Dokumentenanalyse hat PaddleOCR 3.0 die allgemeine Dokumentenanalysemethode PP-StructureV3 vorgestellt. Diese Methode verstärkt die Fähigkeit zur Erkennung von Layouts, Tabellen und Formeln und fügt die Fähigkeit zur Analyse von Diagrammen und zur Wiederherstellung der Lesereihenfolge in mehrspaltigen Dokumenten hinzu. Außerdem kann das Ergebnis in Markdown- und JSON-Format konvertiert werden. PP-StructureV3 führt viele Open-Source- und geschlossene Systeme in der Benchmark-OmniDocBench vorbei und zeigt seine Stärke bei der hochpräzisen Analyse vielfältiger Dokumentenformate.
Zusätzlich hat PaddleOCR 3.0 die intelligente Dokumentenverstehungsmethode PP-ChatOCRv4 veröffentlicht. Diese Methode nativ die Wénxīn-Datenversion 4.5Turbo unterstützt und die Genauigkeit der kritischen Informationsextraktion um 15 Prozentpunkte gegenüber der Vorgängerversion verbesserte. PP-ChatOCRv4 kombiniert die Vorteile von großen und kleinen Modellen und unterstützt die Offline-Verwendung des multimodalen Dokumentenverständnismodells PP-DocBee2, um komplexe Dokumenteninformationen wie Layoutanalyse, selten vorkommende Zeichen, Mehrseiten-PDFs, Tabellen und Stempel in einem einzigen Schritt zu extrahieren.
Die Veröffentlichung von PaddleOCR 3.0 spiegelt nicht nur die kontinuierliche Innovation von Baidu in der OCR-Technologie wider, sondern bietet auch Entwicklern noch stärkere und benutzerfreundlichere Werkzeuge, um ihre AI-Anwendungen schneller umzusetzen.
Open-Source-Adresse:
https://github.com/PaddlePaddle/PaddleOCR