Salesforce y los investigadores de la Universidad del Sur de California han desarrollado una tecnología revolucionaria llamada CoAct-1, diseñada para mejorar significativamente la capacidad de los agentes de inteligencia artificial (IA) para realizar tareas complejas en una computadora, combinando las ventajas de la programación y las operaciones de interfaz gráfica de usuario (GUI). Este método híbrido busca superar la fragilidad de los agentes GUI tradicionales y abrir el camino hacia una automatización más potente y escalable.

Dolores de cabeza de los agentes de IA tradicionales: Tareas largas y clics incorrectos
Los agentes de IA actuales suelen depender de modelos de lenguaje visual (VLM) para percibir la pantalla y simular operaciones del teclado y el mouse. Aunque estos agentes "de clic" pueden realizar diversas tareas, a menudo no funcionan bien con aplicaciones que tienen menús densos y flujos de trabajo complejos, como suites de productividad informática. Los investigadores señalan que en estos escenarios, un solo clic erróneo o una mala interpretación de un elemento de la interfaz puede provocar el fracaso de toda la tarea.
Para abordar este desafío, los investigadores intentaron utilizar planificadores avanzados para mejorar los agentes GUI, pero este enfoque aún no resolvió las operaciones que podrían realizarse de manera más directa y confiable con unas pocas líneas de código.

CoAct-1: Un sistema híbrido con colaboración entre agentes
Para resolver estas limitaciones, surgió el sistema CoAct-1. Su concepto central es "combinar la ventaja intuitiva de las operaciones GUI con la precisión, fiabilidad y eficiencia de interactuar con el sistema mediante código". Este sistema es ejecutado por un equipo compuesto por tres agentes especializados:
Orquestador: Como planificador central, se encarga de descomponer el objetivo general del usuario en tareas secundarias y asignarlas al agente más adecuado.
Programador: Se encarga de escribir y ejecutar scripts en Python o Bash, manejando operaciones de gestión de archivos o procesamiento de datos en segundo plano.
Operador de GUI: Basado en VLM, se dedica a tareas de frontend que requieren hacer clic en botones o navegar por la interfaz.
Este mecanismo de delegación dinámica permite a CoAct-1 evitar estratégicamente las operaciones GUI ineficientes, optando por la ejecución de código más sólida y eficiente, manteniendo al mismo tiempo la necesidad de interacción visual. El flujo de trabajo es iterativo, y cada agente informa al orquestador después de completar una tarea secundaria, quien decide la siguiente acción.

Salto de rendimiento: Más rápido y eficiente
Los investigadores probaron CoAct-1 en el benchmark OSWorld, que incluye 369 tareas reales que abarcan navegadores, IDEs y aplicaciones ofimáticas. Los resultados mostraron que CoAct-1 logró una tasas de éxito del 60,76%, estableciendo un nuevo récord.
Especialmente en tareas relacionadas con sistemas operativos y flujos de trabajo entre múltiples aplicaciones, el rendimiento de CoAct-1 fue notable. Además, la eficiencia del sistema aumentó considerablemente, ya que en promedio solo se necesitaron 10,15 pasos para completar una tarea, mucho menos que los 15,22 pasos necesarios para otros agentes GUI puros destacados. Los investigadores señalaron que menos pasos no solo aceleran la finalización de tareas, sino que también minimizan las oportunidades de error, logrando así una automatización más eficiente y confiable.
De laboratorio a empresa: Potenciales aplicaciones y desafíos
Esta tecnología tiene un gran potencial para su aplicación empresarial. Ran Xu, director de investigación en IA de Salesforce, señaló que sectores como soporte al cliente, exploración comercial, contabilidad automatizada y gestión de campañas de marketing son ejemplos perfectos. En estos escenarios, las empresas deben manejar herramientas con y sin API, y CoAct-1 puede aprovechar flexiblemente el código y la pantalla para ofrecer soluciones completas de automatización.
No obstante, llevar CoAct-1 desde el laboratorio hasta un entorno empresarial también plantea desafíos, incluyendo la necesidad de lidiar con software heredado, garantizar la seguridad y la supervisión humana. Xu enfatizó que es necesario entrenar a los agentes en entornos de sandbox para mejorar su adaptabilidad y crear controles de acceso y barreras de seguridad poderosas para prevenir la ejecución de código malicioso. Finalmente, en un futuro previsible, el modelo de "humano en el bucle"






