El 11 de mayo, el campo del procesamiento de documentos inteligentes dio un gran paso adelante con la introducción oficial del primer ranking unificado para modelos visión-lenguaje llamado "IDP Leaderboard". Este benchmark evalúa a los principales modelos actuales en seis tareas centrales: OCR, extracción de información clave, preguntas y respuestas visuales, extracción de tablas, clasificación y procesamiento de documentos largos, utilizando 16 conjuntos de datos y 9229 documentos, proporcionando referencias cuantificables para el desarrollo de la industria.

1.jpg

Los resultados de las pruebas muestran que Gemini2.5Flash superó a todos en términos de rendimiento general, pero sufrió sorpresivamente en las tareas de OCR y clasificación, mostrando un peor desempeño que su predecesor, Gemini2.0Flash, con una disminución del 1.84% y 0.05%, respectivamente. Los analistas de la industria creen que esto podría deberse a que Google ha priorizado demasiado la capacidad de razonamiento multimodal durante las iteraciones del modelo, descuidando la optimización de funciones básicas de reconocimiento de texto.

Mientras tanto, GPT-4o-mini de OpenAI destacó en la comprensión de gráficos e imágenes, especialmente en tareas de preguntas y respuestas visuales como ChartQA. Sin embargo, su costo por solicitud Token es el más alto, lo que se convierte en un factor limitante importante en su aplicación práctica. La comunidad de desarrolladores también está debatiendo sobre cómo equilibrar el rendimiento y los costos.

2.jpg

Es importante destacar que el procesamiento de documentos largos y la extracción de tablas siguen siendo los puntos débiles de los modelos visión-lenguaje actuales. Incluso el modelo con mejor desempeño obtuvo solo un 69.08% en la tarea de documentos largos (LongDocBench) y un 66.64% en la extracción de tablas (basada en el indicador GriTS). Estos resultados destacan las limitaciones de las IA al manejar disposiciones complejas y contextos largos.

IDP Leaderboard utiliza conjuntos de datos extremadamente desafiantes y diversos, que incluyen texto a mano, texto impreso, textos con acentos, tablas estructuradas y no estructuradas, así como documentos complejos de hasta 21 páginas. Los indicadores de evaluación también varían según las características de cada tarea, utilizando precisión por distancia editada para OCR, KIE, VQA y procesamiento de documentos largos, precisión de coincidencia exacta para la clasificación y el indicador GriTS para la extracción de tablas, asegurando una evaluación integral y justa.

Este ranking de prueba planea actualizar regularmente los conjuntos de datos e incluir más modelos (como la serie Claude) para mantener su dinamismo y autoridad. Los desarrolladores pueden acceder a los conjuntos de datos y códigos de evaluación relevantes a través de GitHub (https://github.com/nanonets/idp-leaderboard) y participar en discusiones comunitarias.

El lanzamiento del benchmark de procesamiento de documentos inteligentes marca un nuevo estadio de evaluación cuantificable para los AI multimodales en el campo del procesamiento de documentos. Aunque Gemini2.5Flash demostró un fuerte rendimiento, las pruebas también revelaron los desafíos actuales de la tecnología. Con la expansión continua de los conjuntos de datos y la optimización profunda de los modelos, la tecnología de procesamiento de documentos inteligentes tiene el potencial de liberar aún más valor en áreas como la automatización empresarial, la digitalización de archivos y las búsquedas inteligentes, proporcionando un mayor soporte tecnológico para la transformación digital.