A Salesforce e pesquisadores da Universidade do Sul da Califórnia desenvolveram uma tecnologia inovadora chamada CoAct-1, que visa significativamente melhorar a capacidade de agentes de IA para executar tarefas complexas em computadores, combinando as vantagens de codificação e operações de interface gráfica do usuário (GUI). Este método híbrido tem como objetivo superar a fragilidade dos agentes tradicionais de GUI, abrindo caminho para automação mais poderosa e escalável.

Música AI Inteligência Artificial (3)

Dificuldades dos agentes de IA tradicionais: tarefas longas e cliques incorretos

Os agentes de IA atuais geralmente dependem de modelos de linguagem visual (VLM) para perceber a tela e simular operações de teclado e mouse. Embora esses agentes "de clique" possam executar várias tarefas, eles frequentemente se saem mal ao lidar com aplicações como suites de produtividade corporativa com menus densos e fluxos de trabalho complexos. Os pesquisadores destacaram que, em cenários como esse, um único clique incorreto ou má compreensão de elementos da interface do usuário pode levar ao fracasso de toda a tarefa.

Para enfrentar esse desafio, os pesquisadores tentaram utilizar planejadores avançados para melhorar os agentes de GUI, mas esse método ainda não resolve operações que podem ser realizadas de forma mais direta e confiável com algumas linhas de código.

QQ20250813-104954.png

CoAct-1: um sistema híbrido com cooperação entre múltiplos agentes

Para resolver essas limitações, surgiu o sistema CoAct-1. A ideia central é "combinar as vantagens intuitivas das operações de GUI com a precisão, confiabilidade e eficiência da interação direta com o sistema por meio de código". O sistema é executado por uma equipe composta por três agentes especializados:

  • Orquestrador: como planejador central, ele é responsável por decompor o objetivo geral do usuário em sub-tarefas e atribuí-las ao agente mais adequado.

  • Programador: responsável por escrever e executar scripts Python ou Bash, tratando operações de gerenciamento de arquivos ou processamento de dados no backend.

  • Operador de GUI: baseado em VLM, especializado em tarefas de front-end que exigem clicar em botões ou navegar pela interface.

Essa mecânica de delegação dinâmica permite que o CoAct-1 evite estratégicamente operações de GUI ineficientes, optando por execução de código mais robusta e eficiente, mantendo simultaneamente a necessidade de interação visual. O processo completo é iterativo, com cada agente relatando sua sub-tarefa ao orquestrador, que decide a próxima ação.

QQ20250813-105039.png

Salto de desempenho: mais rápido e mais eficiente

Os pesquisadores testaram o CoAct-1 no benchmark OSWorld, que inclui 369 tarefas reais em navegadores, IDEs e aplicativos de produtividade corporativa. Os resultados mostraram que o CoAct-1 obteve uma taxa de sucesso de 60,76%, estabelecendo um novo recorde.

Especialmente em tarefas relacionadas ao sistema operacional e fluxos de trabalho multissistema, o desempenho do CoAct-1 foi especialmente notável. Mais importante ainda, a eficiência do sistema aumentou significativamente, com uma média de apenas 10,15 passos para completar uma tarefa, muito menos do que os 15,22 passos necessários pelos agentes puros de GUI líderes. Os pesquisadores observaram que menos passos não apenas aceleram a conclusão da tarefa, mas também minimizam as chances de erros, resultando em automação mais eficiente e confiável.

Da laboratório para a empresa: potenciais aplicações e desafios

Essa tecnologia possui grandes potenciais de aplicação empresarial. Ran Xu, diretor de pesquisa em IA da Salesforce, destacou que áreas como suporte ao cliente, exploração de vendas, contabilidade automatizada e gestão de campanhas de marketing são exemplos perfeitos. Nesses cenários, as empresas precisam lidar com diversas ferramentas com e sem API, e o CoAct-1 pode aproveitar flexivelmente código e tela para oferecer soluções completas de automação.

No entanto, levar o CoAct-1 do laboratório para o ambiente corporativo apresenta desafios, incluindo a necessidade de lidar com software legado, garantir segurança e supervisão humana. Xu enfatizou que é necessário treinar os agentes em ambientes de sandbox para melhorar sua adaptabilidade e estabelecer controle de acesso forte e barreiras de segurança para evitar a execução de código malicioso. Em resumo, no futuro previsível, o modelo "humano no loop"