Salesforce y la Universidad de California del Sur lanzan CoAct-1: un enfoque híbrido de código + interfaz gráfica que lleva la automatización de agentes de IA a un nuevo nivel

AIbase基地

Publicado elNoticias de IA · 7 minutos de lectura · Aug 13, 2025

Salesforce y los investigadores de la Universidad del Sur de California han desarrollado una tecnología revolucionaria llamada CoAct-1, diseñada para mejorar significativamente la capacidad de los agentes de inteligencia artificial (IA) para realizar tareas complejas en una computadora, combinando las ventajas de la programación y las operaciones de interfaz gráfica de usuario (GUI). Este método híbrido busca superar la fragilidad de los agentes GUI tradicionales y abrir el camino hacia una automatización más potente y escalable.

Música AI Inteligencia Artificial (3)

Dolores de cabeza de los agentes de IA tradicionales: Tareas largas y clics incorrectos

Los agentes de IA actuales suelen depender de modelos de lenguaje visual (VLM) para percibir la pantalla y simular operaciones del teclado y el mouse. Aunque estos agentes "de clic" pueden realizar diversas tareas, a menudo no funcionan bien con aplicaciones que tienen menús densos y flujos de trabajo complejos, como suites de productividad informática. Los investigadores señalan que en estos escenarios, un solo clic erróneo o una mala interpretación de un elemento de la interfaz puede provocar el fracaso de toda la tarea.

Para abordar este desafío, los investigadores intentaron utilizar planificadores avanzados para mejorar los agentes GUI, pero este enfoque aún no resolvió las operaciones que podrían realizarse de manera más directa y confiable con unas pocas líneas de código.

CoAct-1: Un sistema híbrido con colaboración entre agentes

Para resolver estas limitaciones, surgió el sistema CoAct-1. Su concepto central es "combinar la ventaja intuitiva de las operaciones GUI con la precisión, fiabilidad y eficiencia de interactuar con el sistema mediante código". Este sistema es ejecutado por un equipo compuesto por tres agentes especializados:

Orquestador: Como planificador central, se encarga de descomponer el objetivo general del usuario en tareas secundarias y asignarlas al agente más adecuado.
Programador: Se encarga de escribir y ejecutar scripts en Python o Bash, manejando operaciones de gestión de archivos o procesamiento de datos en segundo plano.
Operador de GUI: Basado en VLM, se dedica a tareas de frontend que requieren hacer clic en botones o navegar por la interfaz.

Este mecanismo de delegación dinámica permite a CoAct-1 evitar estratégicamente las operaciones GUI ineficientes, optando por la ejecución de código más sólida y eficiente, manteniendo al mismo tiempo la necesidad de interacción visual. El flujo de trabajo es iterativo, y cada agente informa al orquestador después de completar una tarea secundaria, quien decide la siguiente acción.

Salto de rendimiento: Más rápido y eficiente

Los investigadores probaron CoAct-1 en el benchmark OSWorld, que incluye 369 tareas reales que abarcan navegadores, IDEs y aplicaciones ofimáticas. Los resultados mostraron que CoAct-1 logró una tasas de éxito del 60,76%, estableciendo un nuevo récord.

Especialmente en tareas relacionadas con sistemas operativos y flujos de trabajo entre múltiples aplicaciones, el rendimiento de CoAct-1 fue notable. Además, la eficiencia del sistema aumentó considerablemente, ya que en promedio solo se necesitaron 10,15 pasos para completar una tarea, mucho menos que los 15,22 pasos necesarios para otros agentes GUI puros destacados. Los investigadores señalaron que menos pasos no solo aceleran la finalización de tareas, sino que también minimizan las oportunidades de error, logrando así una automatización más eficiente y confiable.

De laboratorio a empresa: Potenciales aplicaciones y desafíos

Esta tecnología tiene un gran potencial para su aplicación empresarial. Ran Xu, director de investigación en IA de Salesforce, señaló que sectores como soporte al cliente, exploración comercial, contabilidad automatizada y gestión de campañas de marketing son ejemplos perfectos. En estos escenarios, las empresas deben manejar herramientas con y sin API, y CoAct-1 puede aprovechar flexiblemente el código y la pantalla para ofrecer soluciones completas de automatización.

No obstante, llevar CoAct-1 desde el laboratorio hasta un entorno empresarial también plantea desafíos, incluyendo la necesidad de lidiar con software heredado, garantizar la seguridad y la supervisión humana. Xu enfatizó que es necesario entrenar a los agentes en entornos de sandbox para mejorar su adaptabilidad y crear controles de acceso y barreras de seguridad poderosas para prevenir la ejecución de código malicioso. Finalmente, en un futuro previsible, el modelo de "humano en el bucle"

OpenAI anuncia su roadmap para una oferta pública inicial (IPO)! Otoman: 1,4 billones de dólares en inversiones en infraestructura, 1 gigavatio de capacidad de cálculo agregado por semana. Los gigantes de la IA se apresuran a ingresar al mercado bursátil

El director general de OpenAI, Sam Altman, ha anunciado por primera vez que es más probable que la empresa se vaya a cotizar en bolsa mediante una oferta pública inicial (IPO). Con la competencia en inteligencia artificial entrando en una nueva etapa de "activos pesados", OpenAI está invirtiendo en una infraestructura de próxima generación con un nivel sin precedentes de capital y capacidad de cálculo. Altman señaló que la expansión exponencial del tamaño de la empresa hace que el IPO sea una elección inevitable, brindando a los inversores globales la oportunidad de participar en la revolución de la inteligencia artificial.

OpenAI planea invertir 1 billón de dólares anuales para impulsar la infraestructura

El CEO de OpenAI anunció que invertirá 140 mil millones de dólares en construir infraestructura de IA, equivalente a una capacidad de 30 gigavatios en centros de datos. La empresa planea gastar 1 billón de dólares anualmente para apoyar la expansión de la capacidad de inteligencia artificial, incluyendo chips, centros de datos y colaboraciones financieras.

NVIDIA presenta el modelo de comprensión multimodal OmniVinci, con datos de entrenamiento únicamente 1/6

NVIDIA lanza el modelo de comprensión multimodal OmniVinci, obteniendo 19.05 puntos más que los modelos principales en varias pruebas estándar. Este modelo utiliza solo 0.2 billones de tokens de entrenamiento, teniendo una eficiencia de datos seis veces mayor que la de sus competidores. Su objetivo es lograr una comprensión unificada de la visión, el audio y el texto, impulsando el desarrollo de la capacidad cognitiva multimodal de las máquinas.

Diario de IA: Microsoft lanza su primer modelo de generación de imágenes desarrollado internamente, MAI-Image-1; se anuncia la fecha de la conferencia Mundial de Baidu; un experto en IA abre el recurso educativo nanochat

Microsoft lanza su primer modelo de generación de imágenes desarrollado internamente, MAI-Image-1, y entra en los diez primeros en LMArena, demostrando una capacidad excepcional para la generación de imágenes. Este modelo es desarrollado por Microsoft y marca un importante avance en el campo de la generación de imágenes de IA.

El modelo de pensamiento con parámetros de 1 billón de la empresa Ant Group, Ring-1, se lanza como código abierto y rompe varios registros de SOTA en código abierto

La empresa Ant Group lanzó el modelo de 1 billón de parámetros, Ring-1T, el 14 de octubre, incluyendo los pesos y los métodos de entrenamiento. Este modelo se basa en una versión preliminar actualizada, optimizado mediante aprendizaje por refuerzo para mejorar su capacidad de razonamiento y completar su rendimiento general, mostrando un equilibrio en múltiples tareas. El equipo está desafiando problemas más difíciles para mejorar su capacidad de razonamiento matemático y otras tareas complejas.

Salesforce lanzó Agentforce 360 para capturar el mercado de inteligencia artificial empresarial: tiene 12.000 clientes, pero el 95% de las pruebas piloto de inteligencia artificial empresarial terminan en fracaso

Salesforce presentó la plataforma de agentes de inteligencia artificial Agentforce 360, que incluye funciones como guías de texto, herramientas para construir y desplegar, y la integración con Slack, con el fin de fortalecer su competitividad en el mercado de inteligencia artificial empresarial, y lo anunció poco antes de la conferencia anual Dreamforce.

La expansión del ecosistema de IA autónoma! Microsoft lanza MAI-Image-1, un generador de imágenes a partir de texto, tras las voces y los chatbots

Microsoft lanza su primer generador de imágenes a partir de texto desarrollado internamente, MAI-Image-1, lo que marca una nueva etapa en su desarrollo de IA. Este modelo evita eficazmente problemas de repetición y estilización al incorporar opiniones de profesionales creativos, destacando especialmente en la generación de imágenes realistas a nivel fotográfico, siendo particularmente competente en escenas complejas como relámpagos y paisajes.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Brand Visibility

AI Brand Monitoring Tool

AI Search Visibility Checker

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Services​

AI Model Compatibility Checker

AI Deployment Calculator

Salesforce y la Universidad de California del Sur lanzan CoAct-1: un enfoque híbrido de código + interfaz gráfica que lleva la automatización de agentes de IA a un nuevo nivel

AIbase基地

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

OpenAI anuncia su roadmap para una oferta pública inicial (IPO)! Otoman: 1,4 billones de dólares en inversiones en infraestructura, 1 gigavatio de capacidad de cálculo agregado por semana. Los gigantes de la IA se apresuran a ingresar al mercado bursátil

OpenAI planea invertir 1 billón de dólares anuales para impulsar la infraestructura

​NVIDIA presenta el modelo de comprensión multimodal OmniVinci, con datos de entrenamiento únicamente 1/6

Sesame completa una financiación de 250 millones de dólares en la ronda B, su revolucionaria voz de IA atrae a cientos de miles de usuarios que prueban el producto, la versión beta de la aplicación se lanza al mismo tiempo

Salesforce es demandada por infracción de modelos de inteligencia artificial o podría provocar una crisis de confianza en las empresas

Diario de IA: Microsoft lanza su primer modelo de generación de imágenes desarrollado internamente, MAI-Image-1; se anuncia la fecha de la conferencia Mundial de Baidu; un experto en IA abre el recurso educativo nanochat

El modelo de pensamiento con parámetros de 1 billón de la empresa Ant Group, Ring-1, se lanza como código abierto y rompe varios registros de SOTA en código abierto

Salesforce lanzó Agentforce 360 para capturar el mercado de inteligencia artificial empresarial: tiene 12.000 clientes, pero el 95% de las pruebas piloto de inteligencia artificial empresarial terminan en fracaso

La expansión del ecosistema de IA autónoma! Microsoft lanza MAI-Image-1, un generador de imágenes a partir de texto, tras las voces y los chatbots

Microsoft presenta con fuerza su generador de imágenes de IA propia MAI-Image-1, ¡dejando de depender de OpenAI!

Noticias de IA relacionadas recomendadas

OpenAI anuncia su roadmap para una oferta pública inicial (IPO)! Otoman: 1,4 billones de dólares en inversiones en infraestructura, 1 gigavatio de capacidad de cálculo agregado por semana. Los gigantes de la IA se apresuran a ingresar al mercado bursátil

OpenAI planea invertir 1 billón de dólares anuales para impulsar la infraestructura

​NVIDIA presenta el modelo de comprensión multimodal OmniVinci, con datos de entrenamiento únicamente 1/6

Sesame completa una financiación de 250 millones de dólares en la ronda B, su revolucionaria voz de IA atrae a cientos de miles de usuarios que prueban el producto, la versión beta de la aplicación se lanza al mismo tiempo

Salesforce es demandada por infracción de modelos de inteligencia artificial o podría provocar una crisis de confianza en las empresas

Diario de IA: Microsoft lanza su primer modelo de generación de imágenes desarrollado internamente, MAI-Image-1; se anuncia la fecha de la conferencia Mundial de Baidu; un experto en IA abre el recurso educativo nanochat

El modelo de pensamiento con parámetros de 1 billón de la empresa Ant Group, Ring-1, se lanza como código abierto y rompe varios registros de SOTA en código abierto

Salesforce lanzó Agentforce 360 para capturar el mercado de inteligencia artificial empresarial: tiene 12.000 clientes, pero el 95% de las pruebas piloto de inteligencia artificial empresarial terminan en fracaso

La expansión del ecosistema de IA autónoma! Microsoft lanza MAI-Image-1, un generador de imágenes a partir de texto, tras las voces y los chatbots

Microsoft presenta con fuerza su generador de imágenes de IA propia MAI-Image-1, ¡dejando de depender de OpenAI!

GEO Services

NVIDIA presenta el modelo de comprensión multimodal OmniVinci, con datos de entrenamiento únicamente 1/6

NVIDIA presenta el modelo de comprensión multimodal OmniVinci, con datos de entrenamiento únicamente 1/6