Recentemente, o DeepSeek lançou um novo modelo de compreensão de documentos OCR - DeepSeek-OCR. Este modelo não apenas alcançou desempenho de topo na análise de documentos em imagem, mas também introduziu um conceito ousado e altamente inovador: o mecanismo de "compressão de memória visual", com o objetivo de resolver de forma revolucionária o problema do crescimento explosivo dos recursos computacionais nos modelos de linguagem grandes (LLM) ao lidar com contextos muito longos.

DeepSeek

Avanço fundamental: permitir que a IA "leia imagens" com compressão eficiente

O inovador aspecto central do DeepSeek-OCR é imitar a memória visual humana, comprimindo informações de texto longo no espaço da imagem, reduzindo assim significativamente o consumo de "tokens" pelos modelos de linguagem.

Explicação simplificada do funcionamento:

O mecanismo funciona da seguinte forma: primeiro, o texto longo é comprimido em uma única imagem; em seguida, o modelo visual comprime essa imagem em um número mínimo de "tokens visuais" (Visual Tokens); por fim, o modelo de linguagem decodifica e recupera o texto a partir desses tokens visuais.

Ou seja, essa tecnologia permite que o modelo possa **"ler através de imagens"**, em vez de "ler palavra por palavra", aumentando significativamente a eficiência no processamento de informações.

QQ20251021-090236.png

Eficiência impressionante: compressão 10 vezes e potencial futuro

O DeepSeek demonstrou uma eficiência impressionante: um artigo de 1.000 palavras, após ser comprimido em uma imagem, requer apenas 100 tokens visuais (realizando uma compressão de 10 vezes) para representá-lo, e o modelo ainda consegue recuperar 97% do texto original durante a descompressão.

Essa conquista revolucionária não apenas demonstra a eficácia da "compressão de memória visual", mas também revela seu grande potencial para o futuro da inteligência artificial:

  • Solucionar limitações de memória dos LLM: Pode se tornar uma tecnologia-chave para superar as "limitações de memória" dos grandes modelos, permitindo que a IA processe contextos extremamente longos, como **"centenas de páginas"**, com menos recursos computacionais.

  • Armazenamento de memória futura da IA: No futuro, a IA poderá armazenar memórias antigas como imagens, permitindo uma arquivamento eficiente de informações.

Analogia à "curva de esquecimento" humana: memória de alta fidelidade e baixa densidade

O DeepSeek compara esse mecanismo de compressão visual à **"curva de esquecimento"** humana, simulando de forma inteligente o processo natural de memória e esquecimento humano:

  • Memória de alta fidelidade: O contexto mais recente é mantido como imagem de alta resolução, ou seja, informações de alta fidelidade.

  • Memória de baixa densidade: O contexto mais antigo é comprimido em imagens difusas, ou seja, informações de baixa densidade.