En el campo de los agentes de uso de computadoras (Computer Use Agent), ha habido un avance emocionante recientemente. Un equipo de investigación de la Universidad de Shanghai Jiao Tong y SII ha logrado entrenar una nueva generación de agente de computadora de código abierto llamado PC Agent-E, utilizando solo 312 trayectorias de operaciones anotadas por humanos. Su rendimiento mejoró en un 241%, superando a la famosa Claude3.7Sonnet, convirtiéndose en el modelo óptimo en sistemas Windows.

Desde que Anthropic lanzó Claude Computer Use, el desarrollo de agentes de computadoras ha sido muy seguido. OpenAI también lanzó Operador, mejorando las capacidades de los agentes de computadoras mediante tecnología de aprendizaje por refuerzo. Sin embargo, en la industria se cree comúnmente que para alcanzar este nivel, se necesita una gran cantidad de datos de trayectorias y algoritmos complejos de aprendizaje por refuerzo. Frente a esta opinión, el equipo de la Universidad de Shanghai y SII demostró con hechos que solo se necesitan pequeñas cantidades de datos de alta calidad para liberar todo el potencial del agente.

image.png

El punto clave de esta investigación radica en cómo utilizar eficazmente las trayectorias de operación humana. El equipo de investigación recolectó 312 trayectorias reales en un día gracias a una herramienta desarrollada llamada PC Tracker. Estas trayectorias incluyen descripciones de tareas, capturas de pantalla y registros detallados de teclado y ratón, asegurando la precisión de los datos. Después de eso, el equipo completó "cadena de razonamiento" para cada acción, proporcionando el proceso de pensamiento detrás de cada movimiento, lo que hizo que los datos fueran más completos.

Para mejorar aún más el rendimiento del modelo, el equipo introdujo la tecnología de "realce de trayectoria". A través de Claude3.7Sonnet, los investigadores sintetizaron múltiples decisiones de acciones razonables para cada paso, lo que no solo aumentó la diversidad de los datos de trayectoria, sino que también mejoró significativamente la eficiencia del entrenamiento. Finalmente, PC Agent-E mostró un excelente desempeño en las pruebas de WindowsAgentArena-V2, superando el modo de "pensamiento extendido" de Claude3.7Sonnet.

image.png

Los resultados de esta investigación muestran que es posible realizar un entrenamiento poderoso de agentes utilizando pequeñas cantidades de datos de alta calidad, sin necesitar grandes cantidades de datos etiquetados. Esto indica el camino hacia el desarrollo de代理es digitales más inteligentes en el futuro. El equipo también cree que mejorando la calidad de los datos de trayectoria, se puede reducir la demanda de datos y promover el aumento de la autonomía de los agentes.

URL del artículo: https://arxiv.org/abs/2505.13909

URL del código: https://github.com/GAIR-NLP/PC-Agent-E

URL del modelo: https://huggingface.co/henryhe0123/PC-Agent-E

URL de los datos: https://huggingface.co/datasets/henryhe0123/PC-Agent-E