Dans le domaine des agents utilisant des ordinateurs (Computer Use Agent), un progrès passionnant a récemment été accompli. L'équipe de recherche de l'Université de Jiao Tong de Shanghai et de SII, en s'appuyant sur seulement 312 trajectoires d'opérations annotées par des humains, a réussi à former une nouvelle génération d'agent open source appelé PC Agent-E, dont les performances ont augmenté de 241 %, surpassant le célèbre Claude3.7Sonnet, pour devenir le modèle optimal de nouvelle génération sous le système Windows.
Depuis que Anthropic a lancé Claude Computer Use, le développement des agents utilisant des ordinateurs a suscité beaucoup d'intérêt. OpenAI a également publié Operator, améliorant les capacités des agents informatiques via des techniques d'apprentissage par renforcement. Cependant, l'industrie considère généralement qu'il faut de grandes quantités de données de trajectoire et des algorithmes complexes d'apprentissage par renforcement pour atteindre un tel niveau. Face à cette opinion, l'équipe de l'Université de Jiao Tong de Shanghai et de SII a réfuté cette idée avec des résultats concrets : il suffit de peu de données de haute qualité pour libérer tout le potentiel des agents intelligents.

La clé de cette recherche réside dans la manière d'utiliser efficacement les trajectoires d'opérations humaines. L'équipe de recherche a collecté 312 trajectoires d'opérations réelles en une journée, grâce à un outil développé appelé PC Tracker. Ces trajectoires comprenaient des descriptions de tâches, des captures d'écran ainsi que des enregistrements détaillés des actions au clavier et à la souris, garantissant l'exactitude des données. Par la suite, l'équipe a complété ces trajectoires avec des « chaînes de raisonnement » supplémentaires, fournissant un processus de pensée derrière chaque action, rendant ainsi les données plus complètes.
Pour améliorer encore les performances du modèle, l'équipe a introduit la technologie d'« amélioration des trajectoires ». En utilisant Claude3.7Sonnet, les chercheurs ont synthétisé plusieurs décisions d'action raisonnables pour chaque étape d'opération, augmentant non seulement la diversité des données de trajectoire mais aussi considérablement l'efficacité de l'entraînement. Finalement, PC Agent-E a excédé le mode « raisonnement prolongé » de Claude3.7Sonnet lors des tests sur WindowsAgentArena-V2.

Les résultats de cette recherche montrent qu'il est possible de former des agents puissants avec une petite quantité de données de haute qualité, sans nécessiter des quantités massives de données annotées. Cela ouvre une voie prometteuse pour le développement de futurs agents numériques plus intelligents. L'équipe pense également que, en améliorant la qualité des données de trajectoire, on peut réduire les besoins en données et promouvoir l'autonomisation des agents.
Adresse du papier : https://arxiv.org/abs/2505.13909
Adresse du code : https://github.com/GAIR-NLP/PC-Agent-E
Adresse du modèle : https://huggingface.co/henryhe0123/PC-Agent-E
Adresse des données : https://huggingface.co/datasets/henryhe0123/PC-Agent-E