O ex-chefe de autodidata da Tesla e co-fundador da OpenAI, Andrej Karpathy, comentou recentemente no Twitter sobre o artigo de código aberto DeepSeek-OCR, apresentando uma visão bastante inspiradora: a entrada de imagem pode ser mais eficiente para modelos de linguagem grandes (LLM) do que a entrada tradicional de texto. Essa visão gerou discussões na comunidade de pesquisa em IA sobre a direção futura da entrada dos modelos.

Karpathy acredita que o método atualmente amplamente utilizado, que é a entrada de tokens de texto, pode ser tanto desperdiçador quanto ineficiente. Ele acha que pesquisas futuras deveriam se voltar para a entrada de imagens. Ele explica algumas vantagens potenciais da entrada de imagem em comparação com a entrada de texto.

Primeiro, há um aumento na taxa de compressão de informações. Ao renderizar o texto como imagem, é possível transmitir mais informações com menos tokens visuais. Isso ocorre porque um patch de imagem pode conter informações de vários caracteres, enquanto na tokenização tradicional de texto, cada caractere ou subpalavra precisa de seu próprio token. Em processamento de grandes contextos, essa compressão pode melhorar significativamente a eficiência do modelo, reduzindo os custos computacionais.

Segundo, há uma riqueza maior na expressão das informações. A entrada de imagem suporta naturalmente elementos visuais como negrito, cor, tamanho da fonte, layout, entre outros. Essas informações de formatação podem ser perdidas ou precisam ser representadas por linguagens de marcação adicionais (como Markdown), aumentando o consumo de tokens. O uso direto de imagens permite que o modelo compreenda mais naturalmente a estrutura visual do documento e destaque os pontos importantes.

Terceiro, há espaço para otimizar a mecanismo de atenção. A entrada de imagem pode usar um mecanismo de atenção bidirecional, enquanto as tarefas tradicionais de geração de texto geralmente usam atenção causal autoregressiva. A atenção bidirecional permite que o modelo considere todas as posições do contexto simultaneamente, fornecendo normalmente uma capacidade de compreensão mais forte. Esse tipo de abordagem evita algumas limitações intrínsecas do processamento de texto autoregressivo.

Karpathy criticou especialmente a complexidade dos tokenizers (divisores de palavras). Ele acredita que os tokenizers são um módulo histórico não end-to-end que introduz muita complexidade desnecessária. Por exemplo, caracteres visualmente idênticos podem ser mapeados para tokens diferentes devido a diferentes codificações Unicode, fazendo com que o modelo entenda entradas aparentemente idênticas de forma diferente. Eliminar os tokenizers e tratar diretamente as imagens tornaria o sistema mais simples e unificado.

Do ponto de vista técnico, a visão de Karpathy se baseia no fato de que os codificadores visuais já estão bastante avançados. Arquiteturas como o Vision Transformer já conseguem lidar eficientemente com entradas de imagem, enquanto modelos como o DeepSeek-OCR demonstraram que a conversão de imagem para texto pode atingir altas taxas de precisão. Extender essa capacidade para todas as tarefas de processamento de texto é tecnicamente viável.

No entanto, Karpathy também destacou uma assimetria: embora a entrada do usuário possa ser uma imagem, a saída do modelo ainda precisa ser textual, pois gerar imagens realistas ainda é um problema não totalmente resolvido. Isso significa que, mesmo adotando a entrada de imagem, a arquitetura do modelo ainda precisa suportar a geração de texto e não pode abandonar completamente as capacidades de processamento de texto.

A visão de Karpathy levantou discussões em vários níveis. Do ponto de vista da eficiência, se a entrada de imagem realmente aumentar a densidade de informações, ela terá vantagens claras ao lidar com documentos longos e grandes contextos. Do ponto de vista da uniformidade, a entrada de imagem pode unificar tarefas como compreensão de documentos, OCR e perguntas multimodais em um único framework, simplificando a arquitetura do modelo.

Porém, a entrada de imagem também enfrenta desafios. Primeiro, há o custo computacional, já que, embora a densidade de informações seja maior, o custo computacional da codificação de imagem pode compensar parte dos ganhos. Segundo, há a editabilidade, pois o texto puro é fácil de editar e manipular, enquanto o "texto" na forma de imagem perde essa flexibilidade nas etapas subsequentes. Terceiro, há a compatibilidade com o ecossistema existente, pois grande parte dos dados textuais e ferramentas disponíveis estão baseadas na representação de caracteres/tokens. Mudar completamente para a entrada de imagem exigiria reconstruir todo o ecossistema.

Do ponto de vista da pesquisa, a visão de Karpathy sugere uma possibilidade interessante: à medida que as capacidades dos modelos visuais aumentam, os modelos "de linguagem" tradicionais podem evoluir para modelos "de processamento de informação" mais genéricos, onde o texto seria apenas uma forma de apresentação, e não a única forma de entrada. Essa mudança pode tornar mais difuso o limite entre modelos de linguagem e modelos multimodais.

O artigo de código aberto DeepSeek-OCR se tornou o ponto de partida para essa discussão, mostrando que a tarefa de OCR já evoluiu de uma simples identificação de caracteres para uma compreensão mais profunda de documentos. Se os modelos de OCR forem capazes de entender corretamente o texto com diversos formatos e layouts, considerar todas as tarefas de texto como tarefas de "compreensão visual" faz sentido conceitualmente.

A brincadeira de Karpathy — "preciso me controlar para não desenvolver imediatamente um chatbot que aceite apenas entrada de imagem" — expressa interesse por essa ideia, mas também revela a complexidade da implementação prática. Essa mudança radical de arquitetura requer muitos experimentos para comprovar sua eficácia em várias tarefas, além de resolver os desafios mencionados acima.

Do ponto de vista de aplicação industrial, mesmo que a entrada de imagem seja provada como superior, a transição será gradual. Um caminho mais provável será o modelo híbrido: usar entrada de imagem em cenários onde for necessário preservar informações de formato visual e usar entrada de texto em cenários onde for necessário edição e combinação flexíveis. Essa estratégia híbrida pode aproveitar as vantagens de ambas as formas.

Em resumo, a visão de Karpathy propõe uma direção de pesquisa merecedora de exploração mais aprofundada, questionando a suposição tradicional de que os tokens de texto são a entrada padrão para os modelos de linguagem. Independentemente de esse sonho ser plenamente realizado, ele oferece uma nova perspectiva para pensar sobre a otimização da representação de entrada dos modelos, podendo gerar uma nova geração de arquiteturas de IA mais eficientes e unificadas.