11 de maio, o campo de processamento de documentos inteligentes testemunhou um avanço significativo – a primeira avaliação benchmark unificada voltada para modelos visão-linguagem, intitulada "IDP Leaderboard", foi oficialmente lançada. Esse benchmark avalia o desempenho dos principais modelos atuais em seis tarefas-chave: OCR, extração de informações críticas, questionário visual, extração de tabelas, classificação e processamento de documentos longos, utilizando 16 conjuntos de dados e 9.229 documentos, fornecendo uma referência quantificável para o desenvolvimento da indústria.
O resultado do teste mostrou que o Gemini2.5Flash lidera em termos de desempenho geral, mas sofreu um revés inesperado nas tarefas de OCR e classificação, apresentando resultados até inferiores à versão anterior, Gemini2.0Flash, com quedas de 1,84% e 0,05%, respectivamente. A análise da comunidade atribui isso a uma possível sobrecarga de focar demais na capacidade de inferência multimodal durante a iteração do modelo, ao mesmo tempo em que negligenciava otimizações básicas de reconhecimento de texto.
Por outro lado, o GPT-4o-mini da OpenAI se destacou notavelmente na compreensão de gráficos e ilustrações, especialmente nas tarefas de questionário visual como ChartQA. No entanto, seu custo por token solicitado permanece o mais alto entre os modelos avaliados, tornando-o um fator limitante em aplicações práticas. As discussões na comunidade de desenvolvedores também giram em torno de como equilibrar desempenho e custo.
Um ponto importante a ser destacado é que o processamento de documentos longos e a extração de tabelas continuam sendo os pontos fracos desses modelos visão-linguagem. Mesmo os melhores modelos obtiveram apenas 69,08% no teste LongDocBench (processamento de documentos longos) e 66,64% no extrator de tabelas (medido pelo índice GriTS), o que destaca as limitações das IA's ao lidar com layouts complexos e contextos extensos.
O IDP Leaderboard utiliza conjuntos de dados extremamente desafiadores e diversificados, incluindo textos manuscritos, impressos, com acentuação, tabelas estruturadas e não estruturadas, além de documentos complexos com até 21 páginas. Os indicadores de avaliação foram selecionados de forma flexível de acordo com as características de cada tarefa, como distância de edição para OCR, KIE, VQA e processamento de documentos longos, correspondência exata para classificação e índice GriTS para extração de tabelas, garantindo uma avaliação abrangente e justa.
O benchmark planeja atualizar regularmente os conjuntos de dados e introduzir novos modelos, como a série Claude, para manter sua relevância e autoridade. Desenvolvedores podem acessar os conjuntos de dados e códigos de avaliação via GitHub (https://github.com/nanonets/idp-leaderboard) e participar das discussões da comunidade.
O lançamento dessa referência para processamento de documentos inteligentes marca o início de uma nova fase de avaliação quantificável para IA multimodal no campo de processamento de documentos. Embora o Gemini2.5Flash tenha demonstrado uma capacidade impressionante, os testes também revelaram os desafios enfrentados pela tecnologia atual. Com o contínuo aumento dos conjuntos de dados e otimizações dos modelos, a tecnologia de processamento de documentos inteligentes tem potencial para gerar ainda mais valor nas áreas de automação empresarial, digitalização de arquivos e busca inteligente, oferecendo suporte tecnológico mais robusto à transformação digital.
Primeiro conjunto de benchmarks para processamento de documentos inteligentes é lançado: Gemini lidera, mas pontos fracos precisam ser corrigidos; IA multimodal enfrenta desafios reais

AIbase基地
Este artigo é do AIbase Daily
Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.