Salesforce e Universidade da Califórnia do Sul lançam o CoAct-1: método híbrido de código + GUI que leva a automação de agentes de IA a um novo nível

AIbase基地

Publicado emNotícias e Informações de IA · 7 minutos de leitura · Aug 13, 2025

A Salesforce e pesquisadores da Universidade do Sul da Califórnia desenvolveram uma tecnologia inovadora chamada CoAct-1, que visa significativamente melhorar a capacidade de agentes de IA para executar tarefas complexas em computadores, combinando as vantagens de codificação e operações de interface gráfica do usuário (GUI). Este método híbrido tem como objetivo superar a fragilidade dos agentes tradicionais de GUI, abrindo caminho para automação mais poderosa e escalável.

Música AI Inteligência Artificial (3)

Dificuldades dos agentes de IA tradicionais: tarefas longas e cliques incorretos

Os agentes de IA atuais geralmente dependem de modelos de linguagem visual (VLM) para perceber a tela e simular operações de teclado e mouse. Embora esses agentes "de clique" possam executar várias tarefas, eles frequentemente se saem mal ao lidar com aplicações como suites de produtividade corporativa com menus densos e fluxos de trabalho complexos. Os pesquisadores destacaram que, em cenários como esse, um único clique incorreto ou má compreensão de elementos da interface do usuário pode levar ao fracasso de toda a tarefa.

Para enfrentar esse desafio, os pesquisadores tentaram utilizar planejadores avançados para melhorar os agentes de GUI, mas esse método ainda não resolve operações que podem ser realizadas de forma mais direta e confiável com algumas linhas de código.

CoAct-1: um sistema híbrido com cooperação entre múltiplos agentes

Para resolver essas limitações, surgiu o sistema CoAct-1. A ideia central é "combinar as vantagens intuitivas das operações de GUI com a precisão, confiabilidade e eficiência da interação direta com o sistema por meio de código". O sistema é executado por uma equipe composta por três agentes especializados:

Orquestrador: como planejador central, ele é responsável por decompor o objetivo geral do usuário em sub-tarefas e atribuí-las ao agente mais adequado.
Programador: responsável por escrever e executar scripts Python ou Bash, tratando operações de gerenciamento de arquivos ou processamento de dados no backend.
Operador de GUI: baseado em VLM, especializado em tarefas de front-end que exigem clicar em botões ou navegar pela interface.

Essa mecânica de delegação dinâmica permite que o CoAct-1 evite estratégicamente operações de GUI ineficientes, optando por execução de código mais robusta e eficiente, mantendo simultaneamente a necessidade de interação visual. O processo completo é iterativo, com cada agente relatando sua sub-tarefa ao orquestrador, que decide a próxima ação.

Salto de desempenho: mais rápido e mais eficiente

Os pesquisadores testaram o CoAct-1 no benchmark OSWorld, que inclui 369 tarefas reais em navegadores, IDEs e aplicativos de produtividade corporativa. Os resultados mostraram que o CoAct-1 obteve uma taxa de sucesso de 60,76%, estabelecendo um novo recorde.

Especialmente em tarefas relacionadas ao sistema operacional e fluxos de trabalho multissistema, o desempenho do CoAct-1 foi especialmente notável. Mais importante ainda, a eficiência do sistema aumentou significativamente, com uma média de apenas 10,15 passos para completar uma tarefa, muito menos do que os 15,22 passos necessários pelos agentes puros de GUI líderes. Os pesquisadores observaram que menos passos não apenas aceleram a conclusão da tarefa, mas também minimizam as chances de erros, resultando em automação mais eficiente e confiável.

Da laboratório para a empresa: potenciais aplicações e desafios

Essa tecnologia possui grandes potenciais de aplicação empresarial. Ran Xu, diretor de pesquisa em IA da Salesforce, destacou que áreas como suporte ao cliente, exploração de vendas, contabilidade automatizada e gestão de campanhas de marketing são exemplos perfeitos. Nesses cenários, as empresas precisam lidar com diversas ferramentas com e sem API, e o CoAct-1 pode aproveitar flexivelmente código e tela para oferecer soluções completas de automação.

No entanto, levar o CoAct-1 do laboratório para o ambiente corporativo apresenta desafios, incluindo a necessidade de lidar com software legado, garantir segurança e supervisão humana. Xu enfatizou que é necessário treinar os agentes em ambientes de sandbox para melhorar sua adaptabilidade e estabelecer controle de acesso forte e barreiras de segurança para evitar a execução de código malicioso. Em resumo, no futuro previsível, o modelo "humano no loop"

OpenAI anuncia o plano de IPO! Otman: investimento de 1,4 trilhão de dólares em infraestrutura, novo aumento de 1 gigawatt por semana de capacidade de computação. Gigantes da IA se preparam para ir à bolsa

O CEO da OpenAI, Sam Altman, declarou pela primeira vez de forma clara que a empresa provavelmente vai ao mercado com um IPO. Com a competição de IA entrando na era dos 'ativos pesados', a OpenAI está construindo uma nova infraestrutura para a próxima geração de IA com investimentos sem precedentes em capital e capacidade de computação. Altman observou que a expansão exponencial do negócio torna o IPO uma escolha inevitável, oferecendo oportunidades aos investidores globais participarem da revolução da IA.

A OpenAI planeja investir 1 trilhão de dólares por ano para impulsionar a infraestrutura

O CEO da OpenAI anunciou que investirá 1,4 trilhão de dólares na construção de infraestrutura de IA, equivalente a capacidade de 30 gigawatts em centros de dados. A empresa planeja gastar 1 trilhão de dólares por ano para apoiar a expansão da capacidade de inteligência artificial, envolvendo chips, centros de dados e parcerias de financiamento.

NVIDIA abre o modelo de compreensão multimodal OmniVinci, com dados de treinamento apenas 1/6

A NVIDIA lançou o modelo de compreensão multimodal OmniVinci, liderando os modelos de ponta em várias métricas por 19,05 pontos. O modelo usou apenas 0,2 trilhão de tokens para treinamento, tendo eficiência de dados seis vezes maior que a dos concorrentes. Tem como objetivo alcançar uma compreensão unificada de visualização, áudio e texto, promovendo o desenvolvimento da capacidade cognitiva multimodal das máquinas.

Diário de AI: Gemini 3.0 Pro da Google lançado em pequena escala; A Eshi Technology concluiu uma financiamento de 1 bilhão de yuans na série B+; a Baidu lançou o modelo de análise de documentos PaddleOCR-VL

O Gemini 3.0 Pro da Google começa a ser enviado em pequena escala, reforçando as capacidades de raciocínio e multimídia, e está previsto para ser oficialmente lançado até o final do mês. A equipe do DeepMind está gradualmente fornecendo atualizações aos usuários, melhorando o desempenho da IA.

Diário de IA: Microsoft lança seu primeiro modelo de geração de imagens desenvolvido internamente MAI-Image-1; data do evento Mundial da Baidu divulgada; especialistas em IA abrem o ferramenta de ensino nanochat

A Microsoft lançou seu primeiro modelo de geração de imagens desenvolvido internamente MAI-Image-1, entrando nas primeiras dez posições no LMArena, demonstrando uma excelente capacidade de geração de imagens. Este modelo foi desenvolvido pela Microsoft e marca um importante avanço na área de geração de imagens por IA.

O modelo de pensamento com trilhões de parâmetros da Ant Group, Ring-1, é lançado e aberto imediatamente, batendo vários recordes de SOTA em código aberto

A Ant Group divulgou no dia 14 de outubro o modelo com trilhões de parâmetros Ring-1T, incluindo pesos e métodos de treinamento. Este modelo foi atualizado a partir da versão preliminar, otimizado pela aprendizagem por reforço para melhorar suas capacidades de raciocínio e aprimorar seu desempenho geral, mostrando equilíbrio em várias tarefas. A equipe está se desafiando com tarefas mais difíceis para melhorar suas habilidades de raciocínio matemático e outras complexas.

Salesforce lança Agentforce 360 para disputar o mercado de inteligência artificial empresarial: possui 12 mil clientes, mas 95% dos projetos piloto de inteligência artificial empresarial terminam em fracasso

Salesforce lança plataforma de agentes de inteligência artificial Agentforce 360, com nova funcionalidade de orientação por texto, ferramentas para construção e implantação e integração com Slack, visando fortalecer sua competitividade no mercado de inteligência artificial empresarial, lançada pouco antes da conferência anual Dreamforce.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

GEO Brand Visibility

AI Visibility Audit

AI Search Visibility Checker

GEO Ranking Monitor

AI Conversation Insight

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Ranking Optimization

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

LLM API Hub

AI Models Finder

Model Providers

LLM Leaderboard

Compare LLMs

LLM Cost Calculator

LLM Arena

AI Model Compatibility Checker

AI Deployment Calculator

Salesforce e Universidade da Califórnia do Sul lançam o CoAct-1: método híbrido de código + GUI que leva a automação de agentes de IA a um novo nível

AIbase基地

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

OpenAI anuncia o plano de IPO! Otman: investimento de 1,4 trilhão de dólares em infraestrutura, novo aumento de 1 gigawatt por semana de capacidade de computação. Gigantes da IA se preparam para ir à bolsa

A OpenAI planeja investir 1 trilhão de dólares por ano para impulsionar a infraestrutura

​NVIDIA abre o modelo de compreensão multimodal OmniVinci, com dados de treinamento apenas 1/6

Sesame completa financiamento da rodada B de 250 milhões de dólares, a revolucionária voz de IA atrai milhões de usuários para experimentar, o aplicativo versão beta é lançado simultaneamente

Salesforce é processado por violação de modelo de IA ou pode causar crise de confiança nas empresas

O futuro dos agentes de IA vai esperar dez anos? Karpathy diz que a tecnologia atual ainda é muito ruim!

Diário de AI: Gemini 3.0 Pro da Google lançado em pequena escala; A Eshi Technology concluiu uma financiamento de 1 bilhão de yuans na série B+; a Baidu lançou o modelo de análise de documentos PaddleOCR-VL

Diário de IA: Microsoft lança seu primeiro modelo de geração de imagens desenvolvido internamente MAI-Image-1; data do evento Mundial da Baidu divulgada; especialistas em IA abrem o ferramenta de ensino nanochat

O modelo de pensamento com trilhões de parâmetros da Ant Group, Ring-1, é lançado e aberto imediatamente, batendo vários recordes de SOTA em código aberto

Salesforce lança Agentforce 360 para disputar o mercado de inteligência artificial empresarial: possui 12 mil clientes, mas 95% dos projetos piloto de inteligência artificial empresarial terminam em fracasso

Notícias de IA Relacionadas Recomendadas

OpenAI anuncia o plano de IPO! Otman: investimento de 1,4 trilhão de dólares em infraestrutura, novo aumento de 1 gigawatt por semana de capacidade de computação. Gigantes da IA se preparam para ir à bolsa

A OpenAI planeja investir 1 trilhão de dólares por ano para impulsionar a infraestrutura

​NVIDIA abre o modelo de compreensão multimodal OmniVinci, com dados de treinamento apenas 1/6

Sesame completa financiamento da rodada B de 250 milhões de dólares, a revolucionária voz de IA atrai milhões de usuários para experimentar, o aplicativo versão beta é lançado simultaneamente

Salesforce é processado por violação de modelo de IA ou pode causar crise de confiança nas empresas

O futuro dos agentes de IA vai esperar dez anos? Karpathy diz que a tecnologia atual ainda é muito ruim!

Diário de AI: Gemini 3.0 Pro da Google lançado em pequena escala; A Eshi Technology concluiu uma financiamento de 1 bilhão de yuans na série B+; a Baidu lançou o modelo de análise de documentos PaddleOCR-VL

Diário de IA: Microsoft lança seu primeiro modelo de geração de imagens desenvolvido internamente MAI-Image-1; data do evento Mundial da Baidu divulgada; especialistas em IA abrem o ferramenta de ensino nanochat

O modelo de pensamento com trilhões de parâmetros da Ant Group, Ring-1, é lançado e aberto imediatamente, batendo vários recordes de SOTA em código aberto

Salesforce lança Agentforce 360 para disputar o mercado de inteligência artificial empresarial: possui 12 mil clientes, mas 95% dos projetos piloto de inteligência artificial empresarial terminam em fracasso

NVIDIA abre o modelo de compreensão multimodal OmniVinci, com dados de treinamento apenas 1/6

NVIDIA abre o modelo de compreensão multimodal OmniVinci, com dados de treinamento apenas 1/6