No campo dos agentes de uso de computadores (Computer Use Agent), houve recentemente um avanço emocionante. A equipe de pesquisa da Shanghai Jiao Tong University e do SII, utilizando apenas 312 trajetórias de operações rotuladas por humanos, treinou com sucesso o novo agente de computador de código aberto chamado PC Agent-E, cujo desempenho aumentou em até 241%, superando o famoso Claude3.7Sonnet e tornando-se o modelo mais avançado para sistemas Windows.
Desde que a Anthropic lançou o Claude Computer Use, o desenvolvimento de agentes de computador tem sido amplamente observado. A OpenAI também lançou o Operador, melhorando a capacidade desses agentes por meio de técnicas de aprendizado por reforço. No entanto, a indústria geralmente acredita que atingir esse nível requer grandes quantidades de dados de trajetória e algoritmos complexos de aprendizado por reforço. Em resposta a essa visão, a equipe da Shanghai Jiao Tong University e do SII refutou isso com resultados práticos: apenas pequenas quantidades de dados de alta qualidade podem liberar todo o potencial dos agentes inteligentes.

O ponto-chave desta pesquisa foi como aproveitar eficientemente as trajetórias de operações humanas. A equipe de pesquisa conseguiu coletar 312 trajetórias reais em apenas um dia, com a ajuda de uma ferramenta chamada PC Tracker desenvolvida por eles mesmos. Essas trajetórias incluem descrições de tarefas, capturas de tela e registros detalhados de teclado e mouse, garantindo a precisão dos dados. Após isso, os pesquisadores realizaram "completude da corrente de pensamento", fornecendo processos de pensamento por trás de cada ação, tornando os dados mais completos.
Para melhorar ainda mais o desempenho do modelo, a equipe introduziu a tecnologia de "realce de trajetória". Usando o Claude3.7Sonnet, os pesquisadores sintetizaram múltiplas decisões razoáveis de ação para cada passo, aumentando não apenas a diversidade dos dados de trajetória, mas também significativamente a eficiência do treinamento. Finalmente, o PC Agent-E se saiu muito bem no teste do WindowsAgentArena-V2, superando o modo de "pensamento estendido" do Claude3.7Sonnet.

Os resultados dessa pesquisa mostram que é possível treinar agentes inteligentes poderosos usando pequenas quantidades de dados de alta qualidade, sem a necessidade de grandes volumes de dados rotulados. Isso aponta uma direção para o desenvolvimento de代理es digitais mais inteligentes no futuro. A equipe também acredita que, ao melhorar a qualidade das trajetórias de dados, pode-se reduzir a demanda por dados e promover o aumento da autonomia dos agentes.
Link do artigo: https://arxiv.org/abs/2505.13909
Link do código: https://github.com/GAIR-NLP/PC-Agent-E
Link do modelo: https://huggingface.co/henryhe0123/PC-Agent-E
Link dos dados: https://huggingface.co/datasets/henryhe0123/PC-Agent-E