Recientemente, el equipo de investigación de Microsoft llevó a cabo un estudio comparativo entre los agentes proxy de API y los agentes proxy de GUI, descubriendo que ambos tienen sus propias características y pueden ser seleccionados según diferentes necesidades. Los agentes proxy de API interactúan con el software mediante interfaces programables, mientras que los agentes proxy de GUI simulan el modo de operación humano, completando tareas a través de clics en botones y navegación por menús. Por ejemplo, para organizar una actividad, un agente proxy de API podría realizar la tarea con una sola llamada de función, mientras que un agente proxy de GUI tendría que abrir la aplicación de calendario, llenar gradualmente la información relevante.
En el estudio, el equipo de Microsoft evaluó el rendimiento de estos dos tipos de agentes en nueve categorías. Una de las principales diferencias radica en la forma en que interactúan con el software: los agentes proxy de API utilizan llamadas de función, generalmente siendo más estables y con menor probabilidad de cometer errores; mientras que los agentes proxy de GUI dependen del contenido de la interfaz visual, aunque son menos eficientes, poseen mayor flexibilidad. Los agentes proxy de GUI pueden controlar casi cualquier software con interfaz visible, incluso si este no proporciona una API.
El estudio también señaló que los agentes proxy de API tienen ventajas en términos de seguridad y mantenimiento, ya que se pueden limitar los permisos de acceso a nivel funcional y se benefician del control de versiones. Por otro lado, los agentes proxy de GUI son más frágiles, ya que pequeños cambios visuales podrían hacer que dejen de funcionar correctamente. Sin embargo, los agentes proxy de GUI tienen una mayor transparencia, permitiendo a los usuarios ver cada operación claramente, lo que facilita la auditoría.
Microsoft propuso tres estrategias de sistemas híbridos combinando los agentes proxy de API y GUI. La primera es encapsular las operaciones de GUI mediante API, por ejemplo, simplificar un proceso multietapa para generar informes financieros en una sola función llamada GenerateReport(). La segunda estrategia es usar herramientas de orquestación para coordinar los pasos de API y GUI, aplicable a flujos de trabajo como consultas de base de datos y verificación de crédito. La tercera estrategia son las plataformas de bajo código o sin código, que permiten a los usuarios no técnicos construir flujos de automatización mediante arrastrar y soltar en la interfaz.
Al elegir el agente adecuado, el equipo de investigación proporcionó orientación clara. Los agentes proxy de API son adecuados para tareas con altos requisitos de rendimiento, especialmente cuando se trata con interfaces bien documentadas. Por otro lado, los agentes proxy de GUI son ideales para sistemas antiguos sin API y aplicaciones móviles. Con el tiempo, los sistemas híbridos pueden adaptarse a nuevas APIs emergentes, ofreciendo mayor flexibilidad.
Resaltando:
🌟 Los agentes proxy de API realizan tareas rápidas y estables a través de llamadas de función, adecuados para entornos con altas exigencias de seguridad.
🔄 Los agentes proxy de GUI son flexibles y pueden responder a cambios en la interfaz visual, adecuados para sistemas antiguos y tareas que requieren confirmación visual.
🤝 Los sistemas híbridos combinan las ventajas de ambos, pudiendo elegir la solución óptima según las necesidades específicas, impulsando el proceso de automatización.