Hoy, el equipo de X-PLUG lanzó oficialmente su nuevo proyecto Mobile-Agent-v3 en GitHub, un marco multiagente de plataforma cruzada basado en GUI-Owl. Mobile-Agent-v3 cuenta con poderosas capacidades de planificación, gestión del progreso, reflexión y memoria, con el objetivo de mejorar la experiencia de automatización GUI del usuario.

GUI-Owl, como modelo base de Mobile-Agent-v3, integra funciones como percepción, base, razonamiento, planificación y ejecución, siendo un agente multimodal nativo de extremo a extremo. Su diseño permite que las interacciones entre plataformas y decisiones en múltiples rondas sean más fluidas, con una clara capacidad de razonamiento intermedio. Esto significa que los usuarios obtendrán un rendimiento más estable al realizar operaciones multitarea.

QQ20250825-112403.png

El equipo de X-PLUG destacó que Mobile-Agent-v3 no solo ha mejorado sus funciones, sino que también ha fortalecido su capacidad de manejo de errores y reflexión, asegurando que siga operando de manera eficiente incluso ante ventanas emergentes y anuncios. Además, la función de registro de información clave de Mobile-Agent-v3 hace que la ejecución de tareas entre aplicaciones sea más conveniente, facilitando enormemente las operaciones cotidianas del usuario.

A la vez, varios anteriores versiones de Mobile-Agent, como Mobile-Agent-v2 y PC-Agent, fueron aceptadas en las conferencias NeurIPS2024 e ICLR2025, lo que demuestra el amplio impacto de este proyecto en el ámbito de la investigación académica.

Destaca mencionar que el equipo de X-PLUG también ofrece un amplio soporte de recursos, incluyendo informes técnicos, videos de demostración y repositorios de código, lo que permite a desarrolladores e investigadores explorar mejor el potencial de Mobile-Agent. A través de estos recursos, los usuarios no solo podrán experimentar las potentes funciones de Mobile-Agent, sino también participar en su desarrollo y optimización posterior.

Dirección: https://github.com/X-PLUG/MobileAgent