Recentemente, a equipe do laboratório IPADS da Universidade de Ciência e Tecnologia de Xangai lançou uma nova ferramenta de cadeia de agentes móveis chamada MobiAgent, que rompeu as barreiras para o desenvolvimento de assistentes inteligentes personalizados, alegando que sua performance em cenários reais supera o GPT-5 e outros modelos fechados de topo.

O lançamento da MobiAgent permite que qualquer pessoa tenha a oportunidade de cultivar seu próprio assistente de IA. Essa ferramenta suporta os usuários a construir agentes móveis do zero, incluindo todo o processo desde a coleta de dados operacionais até o treinamento do modelo e a implantação do modelo no celular. A natureza aberta da MobiAgent significa que os usuários podem obter dados por conta própria, treinar modelos e aplicar assistentes inteligentes em dispositivos pessoais.

image.png

Para verificar as capacidades reais da MobiAgent, a equipe de pesquisa realizou testes em 20 aplicativos populares nacionais. Os resultados mostraram que o modelo MobiAgent com escala de 7B não apenas superou vários modelos grandes fechados conhecidos, mas também está na liderança entre agentes GUI de código aberto da mesma escala. O "acelerador de memória latente" único da MobiAgent pode ajudar o agente a completar rapidamente tarefas repetidas ao aprender operações históricas, aumentando o desempenho em 2 a 3 vezes.

A essência da MobiAgent está em seu processo eficiente de coleta de dados e treinamento inteligente. Ele registra as operações do celular do usuário por meio de ferramentas leves e depois gera dados de treinamento de alta qualidade usando modelos VLM genéricos. Esses dados são ajustados e refinados para garantir que os agentes treinados tenham uma excelente capacidade de generalização. O "cérebro" da MobiAgent é dividido em três partes: o "planejador", responsável pela planejamento das tarefas; o "decisor", que toma decisões com base na tela atual; e o "executante", que realiza operações específicas. Essa arquitetura torna o treinamento do modelo mais eficiente e aumenta significativamente a velocidade de resposta.

Por meio do framework acelerado AgentRR inovador, a MobiAgent consegue aumentar significativamente a eficiência da execução de tarefas repetidas com base nas experiências anteriores, alcançando até 60%-85% de reutilização de ações. Isso torna o assistente inteligente mais rápido e preciso ao lidar com tarefas diárias.

O lançamento da MobiAgent não apenas fornece conveniência para a personalização de assistentes inteligentes pessoais, mas também impulsiona o desenvolvimento do ecossistema de agentes móveis, marcando a chegada da era inteligente em que "se pode falar, não se precisa mexer".

Endereço do artigo: https://arxiv.org/pdf/2509.00531