Depuis le lancement par Anthropic de la fonctionnalité « utilisation de l'ordinateur » de Claude en octobre, les capacités de l'agent intelligent IA ont suscité un vif intérêt. Cette fonctionnalité a fait de Claude le premier modèle de pointe capable d'interagir via une interface utilisateur graphique (GUI) de la même manière qu'un humain.

Claude accomplit des tâches en accédant aux captures d'écran de l'écran de bureau et en utilisant le clavier et la souris, offrant ainsi aux utilisateurs un moyen pratique d'automatiser les opérations sans avoir besoin d'une interface API.

image.png

Dans une étude menée par le Show Lab de l'Université nationale de Singapour, les chercheurs ont testé Claude sur plusieurs tâches, notamment la recherche sur le Web, l'achèvement des workflows, la productivité au bureau et les jeux vidéo. Ces tâches ont permis d'évaluer les capacités de Claude dans différents contextes, comme la recherche et l'achat d'articles sur le Web, ou l'extraction d'informations d'un site Web pour les insérer dans un tableur. Les chercheurs ont évalué les performances de Claude selon trois dimensions : la planification, l'action et l'évaluation.

Claude a démontré des performances impressionnantes dans l'exécution de tâches complexes. Il est capable d'élaborer des plans clairs, de les exécuter étape par étape et d'évaluer sa progression à chaque étape. De plus, il peut coordonner plusieurs applications, par exemple en copiant des informations d'une page Web vers un tableur. Dans certains cas, Claude est même capable de revoir les résultats à la fin d'une tâche pour s'assurer que tout est conforme à l'objectif.

Cependant, Claude a également commis quelques erreurs simples, des erreurs qu'un utilisateur ordinaire éviterait facilement. Par exemple, dans une tâche, il n'a pas pu s'abonner car il n'a pas fait défiler la page vers le bas pour trouver le bouton correspondant.

Dans d'autres cas, il s'est montré maladroit dans l'exécution de tâches évidentes, comme la sélection et le remplacement de texte ou le changement de puces en numérotation. De plus, Claude n'a parfois pas été conscient de ses erreurs ou a fait de fausses hypothèses sur les raisons de son échec.

Les chercheurs ont indiqué que les lacunes du mécanisme d'auto-évaluation de Claude pourraient être à l'origine de ces erreurs. Des améliorations du cadre des agents GUI pourraient être nécessaires à l'avenir pour intégrer un module d'auto-évaluation plus rigoureux. Les résultats de la recherche montrent également que les agents GUI actuels ne reproduisent pas parfaitement les subtiles nuances de l'utilisation d'un ordinateur par un humain.

Pour les entreprises, le potentiel d'automatisation des tâches à l'aide de simples descriptions textuelles est très attrayant, mais cette technologie n'est pas encore assez mature pour une adoption à grande échelle. Le comportement du modèle est instable, ce qui peut entraîner des conséquences imprévisibles dans les applications sensibles. De plus, l'exécution d'opérations via une interface conçue par l'homme n'est pas la méthode la plus rapide pour accomplir une tâche.

Avant un déploiement à grande échelle, les entreprises doivent également tenir compte des risques de sécurité liés à l'octroi d'un accès au clavier et à la souris à des grands modèles de langage (LLM). Par exemple, des recherches ont montré que les agents Web sont vulnérables aux attaques adversariales que les humains peuvent facilement ignorer. Néanmoins, des outils comme Claude peuvent aider les équipes de produits à explorer des idées, à itérer des solutions et ainsi à gagner du temps et des coûts avant le développement de nouvelles fonctionnalités ou de nouveaux services.

Points clés :

1. 🤖 Claude possède la capacité d'automatiser des tâches complexes via une interface graphique utilisateur, et ses performances sont remarquables.

2. ⚠️ Claude commet des erreurs lors de l'exécution de tâches simples, ce qui reflète les lacunes de son mécanisme d'auto-évaluation.

3. 💼 À l'heure actuelle, cette technologie n'est pas adaptée à une application à grande échelle. Les entreprises doivent faire preuve de prudence face aux risques de sécurité potentiels.