En los últimos años, con el rápido desarrollo de las tecnologías de inteligencia artificial (IA), el modo de uso de las herramientas de programación ha cambiado significativamente. Hubo un tiempo en que herramientas como Cursor, Windsurf y GitHub Copilot eran la norma en el desarrollo de software impulsado por IA. Sin embargo, con el auge de la "IA de agentes autónomos" y la popularidad del "programación de ambiente", la forma en que los sistemas de IA interactúan con el software ha cambiado sutilmente. Ahora, las herramientas de IA interactúan cada vez más directamente con la interfaz de línea de comandos (terminal) del sistema.
El terminal, esa pantalla en blanco y negro que se popularizó en películas de hackers de los años 90, aunque no parece tan impresionante como los editores de código modernos, su poderosa capacidad operativa no debe subestimarse en el desarrollo de programas. La IA no solo puede escribir y depurar código, sino que las herramientas de terminal son clave para convertir el código en software utilizable.
Esta transformación se manifiesta claramente en la introducción de herramientas de codificación en la línea de comandos por parte de laboratorios principales. Desde febrero de este año, Anthropic, DeepMind y OpenAI han lanzado respectivamente herramientas como Claude Code, Gemini CLI y CLI Codex, que se han convertido rápidamente en algunos de los productos más populares de las empresas.
Aunque esta cambio es difícil de percibir, en realidad marca un cambio fundamental en la forma en que la IA interactúa con las computadoras. Muchos expertos creen que esta tendencia apenas está comenzando. Mike Merrill, co-creador de Terminal-Bench, dijo: "Creemos firmemente que en el futuro el 95% de las interacciones entre modelos de lenguaje grandes (LLM) y las computadoras se realizarán a través de interfaces similares a terminales."
Mientras tanto, las herramientas tradicionales de edición de código también enfrentan desafíos significativos. Windsurf, un editor de código de IA, ha experimentado una serie de adquisiciones, lo que hace que el futuro de la empresa sea incierto. Además, estudios recientes muestran que los programadores exageran la mejora de productividad que ofrecen las herramientas tradicionales. Por ejemplo, un estudio de METR descubrió que aunque los desarrolladores creían que usar Cursor Pro aumentaba su eficiencia en un 20% o 30%, los resultados observados mostraron que la velocidad de finalización de las tareas disminuyó casi un 20%.
Bajo este contexto, empresas como Warp han surgido rápidamente, destacándose como líderes en herramientas de terminal gracias a sus altas calificaciones en Terminal-Bench. El fundador de Warp, Zach Lloyd, tiene confianza en el terminal, ya que cree que es el lugar ideal para resolver problemas que los editores de código no pueden manejar.
La clave de este nuevo enfoque radica en cómo definir sus benchmarks de rendimiento. Las herramientas tradicionales normalmente se enfocan en resolver problemas de código en GitHub, mientras que las herramientas de terminal abordan una perspectiva más amplia, cubriendo aspectos como la escritura de código y tareas de DevOps. Por ejemplo, una pregunta en Terminal-Bench requiere que la IA reverse engineer un algoritmo de compresión, mientras que otra pide que construya el núcleo de Linux a partir del código fuente. Esto requiere la tenacidad necesaria para resolver problemas.
Aunque las herramientas de terminal aún no han liberado todo su potencial, Lloyd cree que ya son capaces de manejar muchas tareas no relacionadas con la codificación de los desarrolladores, lo cual es sin duda una perspectiva prometedora.