El anterior responsable de conducción autónoma de Tesla y cofundador de OpenAI, Andrej Karpathy, comentó recientemente en Twitter sobre el artículo de DeepSeek-OCR de código abierto, presentando una idea muy inspiradora: en comparación con la entrada de texto tradicional, la imagen podría ser una forma más eficiente para los modelos de lenguaje grandes (LLM). Esta opinión ha generado un debate en la comunidad de investigación de IA sobre la dirección futura de las formas de entrada de los modelos.

Karpathy considera que el método actual de entrada de tokens de texto puede ser tanto ineficiente como desaprovechado, y cree que la investigación futura debería enfocarse en la entrada de imágenes. Expuso varias dimensiones en las que la entrada de imágenes podría tener ventajas potenciales frente a la entrada de texto.

En primer lugar, hay una mejora en la tasa de compresión de información. Al convertir el texto en imágenes, se puede transmitir más información con menos tokens visuales. Esto se debe a que un parche de imagen puede contener información de múltiples caracteres, mientras que en la tokenización tradicional del texto, cada carácter o subpalabra requiere su propio token. En el caso de contextos muy extensos, esta compresión podría mejorar significativamente la eficiencia del modelo y reducir los costos computacionales.

En segundo lugar, hay una mayor riqueza en la expresión de información. La entrada de imágenes soporta naturalmente elementos visuales como negrita, colores, tamaño de fuente, disposición, etc., información que en el texto puro normalmente se pierde o debe representarse mediante lenguajes de marcado adicionales (como Markdown), lo cual aumenta el consumo de tokens. Usar directamente imágenes permite al modelo comprender mejor la estructura visual y los puntos destacados de los documentos.

Tercero, hay espacio para optimizar el mecanismo de atención. La entrada de imágenes puede usar un mecanismo de atención bidireccional, mientras que las tareas tradicionales de generación de texto suelen utilizar atención causal autoregresiva. La atención bidireccional permite al modelo observar todas las posiciones del contexto simultáneamente, proporcionando generalmente una mayor capacidad de comprensión. Este enfoque evita algunas limitaciones inherentes al procesamiento de texto autoregresivo.

Karpathy criticó especialmente la complejidad del tokenizer (divisor de tokens). Considera que es un módulo histórico no end-to-end que introduce muchas complejidades innecesarias. Por ejemplo, caracteres visualmente idénticos pueden ser mapeados a tokens diferentes debido a distintos códigos Unicode, lo que hace que el modelo entienda de manera diferente entradas aparentemente similares. Eliminar el tokenizer y procesar directamente las imágenes haría que todo el sistema fuera más simple y uniforme.

Desde una perspectiva técnica, la visión de Karpathy se basa en que los codificadores visuales ya son bastante maduros. Arquitecturas como Vision Transformer ya pueden procesar eficientemente la entrada de imágenes, y modelos como DeepSeek-OCR demuestran que la conversión de imágenes a texto puede alcanzar altas tasas de precisión. Extender esta capacidad a todas las tareas de procesamiento de texto es técnicamente viable.

Pero Karpathy también señaló una asimetría: aunque los usuarios pueden ingresar imágenes, la salida del modelo aún debe mantenerse en formato de texto, ya que generar imágenes realistas sigue siendo un problema sin resolver completamente. Esto significa que incluso si se usa entrada de imágenes, la arquitectura del modelo aún debe soportar la generación de texto, y no puede descartar por completo la capacidad de procesamiento de texto.

Este punto de vista ha generado un debate en varios niveles. Desde el punto de vista de la eficiencia, si la entrada de imágenes realmente mejora la densidad de información, tendría una clara ventaja al procesar documentos largos y contextos extensos. Desde el punto de vista de la coherencia, la entrada de imágenes puede unificar tareas como la comprensión de documentos, OCR y preguntas multimpodales dentro del mismo marco, simplificando la arquitectura del modelo.

Pero la entrada de imágenes también enfrenta desafíos. El primero es el costo computacional, ya que aunque la densidad de información sea mayor, el costo computacional del propio proceso de codificación de imágenes podría compensar parte de las ganancias. El segundo es la edición, ya que el texto puro es fácil de editar y manipular, mientras que el "texto" en forma de imagen pierde esa flexibilidad en procesamientos posteriores. El tercero es la compatibilidad ecológica, ya que la gran cantidad de datos y herramientas existentes están basadas en representaciones de caracteres/tokens; pasar completamente a la entrada de imágenes requeriría reconstruir toda la ecosfera.

Desde el punto de vista de las direcciones de investigación, la visión de Karpathy sugiere una posibilidad interesante: a medida que las capacidades de los modelos visuales mejoren, los modelos tradicionales de "lenguaje" podrían evolucionar hacia modelos más generales de "procesamiento de información", donde el texto sería solo una forma de presentación, no la única forma de entrada. Este cambio podría difuminar la frontera entre los modelos de lenguaje y los modelos multimpodales.

El artículo de DeepSeek-OCR se convirtió en el punto de partida de este debate, indicando que la tarea de OCR ha evolucionado de una simple identificación de caracteres hacia una comprensión más profunda del documento. Si los modelos OCR pudieran entender correctamente diversos formatos y diseños de texto, considerar todas las tareas de texto como tareas de "comprensión visual" tendría sentido conceptualmente.

La autoironía de Karpathy —"hay que controlarse para no desarrollar inmediatamente un chatbot que solo acepte entrada de imágenes"—expresa tanto interés en esta idea como la complejidad de su implementación práctica. Este cambio radical de arquitectura necesitaría muchas pruebas experimentales para demostrar su efectividad en diversas tareas, al tiempo que resuelve los desafíos prácticos mencionados anteriormente.

Desde una perspectiva de aplicación industrial, incluso si la entrada de imágenes resulta finalmente más óptima, el proceso de transición será progresivo. Es más probable que la trayectoria sea una combinación: usar entrada de imágenes en escenarios donde sea necesario preservar la información de formato visual, y usar texto en escenarios donde sea necesario edición y combinación flexible. Esta estrategia híbrida podría aprovechar las ventajas de ambos enfoques.

En resumen, la visión de Karpathy propone una dirección de investigación digna de exploración profunda, cuestionando la suposición establecida de que los tokens de texto sean la entrada estándar para los modelos de lenguaje. Independientemente de que este sueño se logre completamente o no, ofrece una nueva perspectiva para pensar en la optimización de las representaciones de entrada de los modelos, posiblemente dando lugar a una nueva generación de arquitecturas de IA más eficientes y unificadas.