Hoy, el equipo de X-PLUG lanzó oficialmente su nuevo proyecto Mobile-Agent-v3 en GitHub, un marco multiagente de plataforma cruzada basado en GUI-Owl. Mobile-Agent-v3 cuenta con poderosas capacidades de planificación, gestión del progreso, reflexión y memoria, con el objetivo de mejorar la experiencia de automatización GUI del usuario.
GUI-Owl, como modelo base de Mobile-Agent-v3, integra funciones como percepción, base, razonamiento, planificación y ejecución, siendo un agente multimodal nativo de extremo a extremo. Su diseño permite que las interacciones entre plataformas y decisiones en múltiples rondas sean más fluidas, con una clara capacidad de razonamiento intermedio. Esto significa que los usuarios obtendrán un rendimiento más estable al realizar operaciones multitarea.
El equipo de X-PLUG destacó que Mobile-Agent-v3 no solo ha mejorado sus funciones, sino que también ha fortalecido su capacidad de manejo de errores y reflexión, asegurando que siga operando de manera eficiente incluso ante ventanas emergentes y anuncios. Además, la función de registro de información clave de Mobile-Agent-v3 hace que la ejecución de tareas entre aplicaciones sea más conveniente, facilitando enormemente las operaciones cotidianas del usuario.
A la vez, varios anteriores versiones de Mobile-Agent, como Mobile-Agent-v2 y PC-Agent, fueron aceptadas en las conferencias NeurIPS2024 e ICLR2025, lo que demuestra el amplio impacto de este proyecto en el ámbito de la investigación académica.
Destaca mencionar que el equipo de X-PLUG también ofrece un amplio soporte de recursos, incluyendo informes técnicos, videos de demostración y repositorios de código, lo que permite a desarrolladores e investigadores explorar mejor el potencial de Mobile-Agent. A través de estos recursos, los usuarios no solo podrán experimentar las potentes funciones de Mobile-Agent, sino también participar en su desarrollo y optimización posterior.
Dirección: https://github.com/X-PLUG/MobileAgent