Avec le développement rapide des technologies d'intelligence artificielle (IA), les façons d'utiliser les outils de programmation ont connu des changements notables. Il n'y a pas si longtemps, des outils comme Cursor, Windsurf et GitHub Copilot étaient les principaux outils de codage alimentés par l'IA. Cependant, avec l'émergence des « agents autonomes » et la popularité du « programming en ambiance », les façons dont les systèmes d'IA interagissent avec les logiciels ont changé subtilement. Aujourd'hui, les outils d'IA interagissent de plus en plus directement avec l'interface de ligne de commande (terminal) du système.
Le terminal, ce moniteur noir et blanc largement diffusé dans les films des années 90 sur les hackers, peut sembler moins impressionnant qu'un éditeur de code moderne, mais sa puissance opérationnelle est incontestable dans le développement logiciel. L'IA ne se contente pas d'écrire et de déboguer du code ; les outils de terminal sont essentiels pour transformer le code en logiciel utilisable.
Cette transformation s'est manifestée clairement avec la sortie d'outils de codage en ligne de commande par les laboratoires principaux. Depuis février de cette année, Anthropic, DeepMind et OpenAI ont lancé respectivement Claude Code, Gemini CLI et CLI Codex, qui sont rapidement devenus des produits très populaires au sein des entreprises.
Même si ce changement n'est pas immédiatement perceptible, il marque en réalité un changement fondamental dans la manière dont l'IA interagit avec les ordinateurs. De nombreux experts pensent que cette tendance n'en est qu'à ses débuts. Mike Merrill, co-créateur de Terminal-Bench, a déclaré : « Nous croyons fermement que 95 % des modèles de langage à grande échelle (LLM) interagiront avec les ordinateurs via une interface similaire à celle d'un terminal. »
En même temps, les outils traditionnels d'édition de code font face à de sérieux défis. Windsurf, un éditeur de code d'IA, a subi plusieurs acquisitions, rendant l'avenir de l'entreprise incertain. De nouvelles recherches montrent que les développeurs surestiment souvent l'amélioration de la productivité apportée par les outils traditionnels. Par exemple, une étude METR a révélé que, bien que les développeurs croient que l'utilisation de Cursor Pro améliore leur efficacité de 20 à 30 %, les observations réelles ont montré que la vitesse de réalisation des tâches était en fait ralentie de près de 20 %.
Avec ce contexte, des entreprises comme Warp ont rapidement émergé, grâce à leurs bons résultats dans Terminal-Bench, devenant ainsi des leaders parmi les outils de terminal. Le fondateur de Warp, Zach Lloyd, a confiance dans le terminal, affirmant qu'il est un lieu idéal pour résoudre les problèmes que les éditeurs de code ont du mal à gérer.
La clé de cette nouvelle approche réside dans la définition de ses critères de performance. Les outils traditionnels se concentrent généralement sur la résolution de problèmes de code sur GitHub, tandis que les outils de terminal adoptent une vision plus large, couvrant l'écriture de code, les tâches DevOps, etc. Par exemple, une question de Terminal-Bench exigeait que l'IA inverse ingénierie un algorithme de compression, une autre qu'elle construise le noyau Linux à partir du code source. Cela nécessitait la persévérance nécessaire pour résoudre des problèmes.
Bien que les outils de terminal ne soient pas encore pleinement exploités, Lloyd estime qu'ils sont déjà capables de gérer de nombreuses tâches non liées au codage pour les développeurs, ce qui représente un avenir prometteur.