La empresa de tecnología de inteligencia artificial DeepSeek ha lanzado recientemente un nuevo modelo de reconocimiento óptico de caracteres (OCR) llamado "DeepSeek-OCR". Este modelo es un modelo de lenguaje visual (VLM) de extremo a extremo, diseñado para analizar documentos de manera eficiente al comprimir textos largos en un pequeño conjunto de marcas visuales y luego descodificarlos utilizando un modelo de lenguaje.
El equipo de investigación indicó que el modelo logró una precisión de decodificación del 97% en la prueba基准 Fox. Incluso cuando la proporción entre el número de etiquetas de texto y el número de etiquetas visuales era 10 veces, la precisión seguía siendo buena, y hasta con una compresión de 20 veces mostraba características útiles. Además, DeepSeek-OCR también demostró un buen rendimiento en la prueba OmniDocBench, usando una cantidad de etiquetas visuales mucho menor que los modelos tradicionales.
La arquitectura de DeepSeek-OCR está compuesta por dos componentes principales: el codificador visual DeepEncoder para entradas de alta resolución y un decodificador de mezcla de expertos llamado DeepSeek3B-MoE-A570M. Este codificador utiliza una mecanismo de atención de ventana local basado en SAM y un algoritmo de compresión convolucional, lo que permite controlar eficientemente la memoria activa a alta resolución y reducir el número de etiquetas de salida. El decodificador es un modelo con 3 mil millones de parámetros, con aproximadamente 570 millones de parámetros activos por etiqueta.
Cuando se usan diferentes modos, DeepEncoder ofrece varias opciones de resolución, incluyendo los modos Tiny, Small, Base y Large, que corresponden a diferentes números de etiquetas visuales y resoluciones. Además, hay modos dinámicos Gundam y Gundam-Master, que pueden ajustar flexiblemente el presupuesto de etiquetas según la complejidad de la página.
En el proceso de entrenamiento, el equipo de DeepSeek utilizó un flujo de entrenamiento por etapas, primero entrenando al DeepEncoder para predecir el siguiente marcador, y luego realizando un entrenamiento completo en múltiples nodos, logrando generar más de 200.000 páginas de documentos diariamente. Para aplicaciones prácticas, el equipo recomienda a los usuarios comenzar con el modo Small, y si la página contiene fuentes pequeñas densas o un alto número de etiquetas, pueden elegir el modo Gundam.
El lanzamiento de DeepSeek-OCR marca un avance importante en el campo de la inteligencia artificial para documentos. La eficiencia y la versatilidad de este modelo lo hacen adaptable para tratar diversos tipos de documentos.
Artículo: https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
Huggingface: https://huggingface.co/deepseek-ai/DeepSeek-OCR
Puntos clave:
🌟 DeepSeek-OCR es un nuevo modelo de lenguaje visual de 3B con capacidades eficientes de OCR y análisis de documentos.
📊 Este modelo logró una precisión de decodificación del 97% en la prueba基准 Fox, manteniendo un buen rendimiento incluso con una compresión significativa.
🔧 DeepEncoder admite varios modos y opciones de resolución para adaptarse a la complejidad y necesidades de diferentes documentos.