Hace poco, DeepSeek lanzó un nuevo modelo de comprensión de documentos OCR: DeepSeek-OCR. Este modelo no solo obtuvo un rendimiento de vanguardia en la interpretación de documentos imagen, sino que también introdujo un concepto audaz y altamente innovador: el mecanismo de "compresión de memoria visual", con el objetivo de resolver de manera revolucionaria el problema del crecimiento exponencial de los recursos computacionales en los modelos de lenguaje grandes (LLM) al procesar contextos muy largos.

DeepSeek

Avance fundamental: Hacer que la IA "lea imágenes" de forma eficiente

La innovación principal de DeepSeek-OCR radica en imitar el mecanismo de memoria visual humano, comprimiendo información de texto largo en el espacio de imagen, logrando así una reducción significativa en el consumo de "tokens" por parte del modelo de lenguaje.

Explicación del funcionamiento:

Este mecanismo funciona mediante "dibujar texto como imagen": primero, el texto largo se comprime en una sola imagen; luego, se utiliza un modelo visual para comprimir esa imagen en el menor número posible de "tokens visuales" (Visual Tokens); finalmente, el modelo de lenguaje descodifica y recupera el texto a partir de estos tokens visuales.

En otras palabras, esta tecnología permite que el modelo pueda **"leer a través de imágenes"**, en lugar de leer palabra por palabra, lo que mejora enormemente la eficiencia del procesamiento de información.

QQ20251021-090236.png

Desempeño asombroso: Compresión 10 veces y potencial futuro

DeepSeek mostró un impresionante resultado de compresión: un artículo de1000 palabras, al comprimirse en una imagen, solo requiere100 tokens visuales (una compresión de 10 veces) para representarlo, y el modelo aún puede recuperarel 97% del texto original al descomprimirlo.

Este logro revolucionario no solo demuestra la efectividad de la "compresión de memoria visual", sino que también revela su gran potencial para el desarrollo futuro de la inteligencia artificial:

  • Resolver las limitaciones de memoria de LLM: Puede convertirse en una tecnología clave para superar las "limitaciones de memoria" de los grandes modelos, permitiendo que la IA procese contextos extremadamente largos, como cientos de páginas, con menos recursos computacionales.

  • Almacenamiento de memoria de la IA futura: En el futuro, la IA podría transformar sus recuerdos antiguos en imágenes para almacenarlos, logrando una archivación eficiente de la información.

Analogía con la "curva de olvido" humana: Memoria de alta fidelidad y baja densidad

DeepSeek compara este mecanismo de compresión visual con la **"curva de olvido"** humana, simulando hábilmente el proceso natural de memoria y olvido humano:

  • Memoria de alta fidelidad: El contexto más reciente se mantiene como una imagen de alta resolución, es decir, información de alta fidelidad.

  • Memoria de baja densidad: El contexto más antiguo se comprime en una imagen borrosa, es decir, información de baja densidad.