Em 20 de maio de 2025, a equipe do PaddlePaddle da Baidu lançou oficialmente a versão 3.0 do PaddleOCR e a tornou open source. Esta nova versão apresenta avanços significativos em precisão de reconhecimento de texto, suporte para múltiplos idiomas, identificação de escrita à mão e análise precisa de documentos, fortalecendo ainda mais a posição do PaddleOCR no campo OCR.

O PaddleOCR, desde seu lançamento, conquistou o interesse das comunidades acadêmica, industrial e de pesquisa graças aos seus algoritmos inovadores e implementações práticas. Com a versão 3.0, ele se integra totalmente ao framework PaddlePaddle 3.0, melhorando a precisão de reconhecimento de texto e oferecendo suporte para múltiplos tipos de textos, inclusive escrita à mão, atendendo às necessidades de aplicações de modelos grandes com alta precisão. Além disso, em conjunto com o modelo grande Wenxin 4.5 Turbo, a precisão de extração de informações críticas aumentou significativamente, e também foi adicionado suporte para hardware nacional como o Kunlun Chip e Ascend.

captura-de-tela_wechat_20250522090536.png

Um dos principais destaques do PaddleOCR3.0 é o modelo de reconhecimento de texto multi-cenário PP-OCRv5. Este modelo permite que um único modelo reconheça cinco tipos de textos: chinês simplificado, chinês tradicional, pinyin chinês, inglês e japonês, além de cenários complexos como escrita à mão, texto vertical, pinyin e caracteres raros. Em comparação com a geração anterior, a precisão geral do PP-OCRv5 aumentou 13 pontos percentuais, alcançando níveis de liderança no setor. O PP-OCRv5 realiza o reconhecimento contínuo de vários tipos de texto por meio de uma arquitetura de modelo unificada, simplificando o processo de implantação e melhorando a precisão total e a velocidade de reconhecimento.

No que diz respeito à análise de documentos, o PaddleOCR3.0 lançou a solução de análise estruturada universal PP-StructureV3. Esta solução reforça a detecção de áreas de layout, o reconhecimento de tabelas e fórmulas, adiciona a capacidade de entender gráficos e restaurar a ordem de leitura de várias colunas, além de converter os resultados para formatos Markdown e JSON. O PP-StructureV3 superou muitas soluções open source e proprietárias no teste benchmark OmniDocBench, destacando-se por sua excelente capacidade de análise precisa em documentos PDF com múltiplos cenários e layouts.

captura-de-tela_wechat_20250522090722.png

Além disso, o PaddleOCR3.0 também lançou a solução de entendimento inteligente de documentos PP-ChatOCRv4. Essa solução suporta nativamente o modelo grande Wenxin 4.5 Turbo, com uma melhoria de 15 pontos percentuais na precisão de extração de informações críticas em relação à versão anterior. A PP-ChatOCRv4 combina os benefícios de modelos grandes e pequenos, suportando o uso offline do modelo multimoedas PP-DocBee2, permitindo a solução de problemas complexos de extração de informações em documentos, como análise de layout, caracteres raros, PDFs de várias páginas, tabelas e reconhecimento de selos.

O lançamento do PaddleOCR3.0 não apenas reflete a inovação contínua da Baidu no campo OCR, mas também fornece ferramentas mais poderosas e fáceis de usar para desenvolvedores, ajudando-os a implementar rapidamente aplicações de IA.

Endereço do código-fonte:

https://github.com/PaddlePaddle/PaddleOCR