O time X-PLUG oficialmente lançou seu novo projeto Mobile-Agent-v3 no GitHub hoje, um framework de múltiplos agentes multiplataforma baseado no GUI-Owl. O Mobile-Agent-v3 possui fortes capacidades de planejamento, gestão de progresso, reflexão e memória, visando melhorar a experiência de automação GUI do usuário.

O GUI-Owl, como modelo base do Mobile-Agent-v3, combina várias funcionalidades, como percepção, fundamentos, raciocínio, planejamento e execução, sendo um agente multissensorial nativo de ponta a ponta. Sua design facilita interações entre plataformas e decisões em múltiplas rodadas, com uma clara capacidade de raciocínio intermediário. Isso significa que os usuários podem obter desempenho mais estável ao realizar tarefas multitarefa.

QQ20250825-112403.png

O time X-PLUG destacou que o Mobile-Agent-v3 não apenas otimizou suas funcionalidades, mas também reforçou sua capacidade de tratamento de exceções e reflexão, garantindo que continue operando de forma eficiente mesmo diante de janelas pop-up e anúncios. Além disso, a função de registro de informações-chave do Mobile-Agent-v3 torna a execução de tarefas entre aplicações mais conveniente, facilitando significativamente as operações cotidianas dos usuários.

Além disso, versões anteriores do Mobile-Agent, como Mobile-Agent-v2 e PC-Agent, foram aceitas nas conferências NeurIPS2024 e ICLR2025, demonstrando a ampla influência deste projeto no campo da pesquisa acadêmica.

Destaca-se que o time X-PLUG também fornece suporte com recursos abrangentes, incluindo relatórios técnicos, vídeos de demonstração e bibliotecas de código, permitindo que desenvolvedores e pesquisadores explorem mais profundamente o potencial do Mobile-Agent. Por meio desses recursos, os usuários não apenas podem experimentar as poderosas funcionalidades do Mobile-Agent, mas também participar do seu desenvolvimento e otimização subsequentes.

Endereço: https://github.com/X-PLUG/MobileAgent