En el campo de la evaluación del rendimiento de los agentes, cómo probar eficazmente su desempeño en escenarios reales siempre ha sido un problema urgente. Aunque ya existen varios benchmarks de evaluación en el mercado que intentan resolver este problema, los investigadores de Meta consideran que los métodos actuales aún no son suficientes para reflejar con precisión la capacidad de adaptación de los agentes. Por lo tanto, Meta ha lanzado una nueva plataforma de evaluación, Agents Research Environment (ARE), y un nuevo modelo de benchmark Gaia2, para ayudar a evaluar el desempeño de los agentes en aplicaciones prácticas.
El propósito original de ARE es crear un entorno similar al mundo real, donde los agentes puedan interactuar. Las tareas en este entorno se realizan de forma asíncrona y el tiempo sigue avanzando; los agentes deben ajustarse y ejecutar sus tareas bajo estas restricciones dinámicas. Los elementos centrales de ARE incluyen interfaces de API con mantenimiento de estado, conjuntos de entornos, eventos, notificaciones y escenarios; los usuarios pueden personalizar escenarios de prueba según sus necesidades.
Gaia2, como parte importante de ARE, se centra en evaluar la capacidad de los agentes en entornos complejos. A diferencia del benchmark anterior Gaia1, Gaia2 no se enfoca únicamente en la capacidad del agente para encontrar respuestas, sino que evalúa su desempeño ante condiciones cambiantes, plazos, fallos en las API y órdenes ambiguas. Además, Gaia2 admite varios protocolos, como Agent2Agent, para evaluar la capacidad de colaboración entre agentes.
El proceso de evaluación de Gaia2 es asíncrono; incluso si el agente está inactivo, el tiempo sigue transcurriendo, lo que le permite medir la capacidad del agente para responder a nuevos eventos. Según las pruebas de 1120 tareas realizadas en un entorno móvil, los resultados actuales muestran que GPT-5 de OpenAI obtuvo un buen desempeño en el benchmark Gaia2, liderando la clasificación.
Además de Gaia2 de Meta, hay otros plataformas de evaluación en el mercado que intentan proporcionar pruebas en entornos reales, como Yourbench de Hugging Face, MCPEval de Salesforce e Inclusion Arena de Inclusion AI. Estas plataformas tienen diferentes enfoques, pero Gaia2 destaca especialmente por su atención a la capacidad de adaptación y manejo de emergencias de los agentes, ofreciendo a las empresas otra manera efectiva de evaluar el desempeño de los agentes.
Blog oficial: https://ai.meta.com/research/publications/are-scaling-up-agent-environments-and-evaluations/
Puntos clave:
🌟 Meta ha lanzado una nueva Agents Research Environment (ARE) y un benchmark Gaia2, para mejorar la capacidad de adaptación de los agentes en el mundo real.
📊 Gaia2 se enfoca en evaluar el desempeño de los agentes ante condiciones cambiantes y la incertidumbre, siendo más práctico que los benchmarks anteriores.
🤖 El método de evaluación de Gaia2 es asíncrono y prueba la capacidad del agente para reaccionar a nuevos eventos; actualmente, GPT-5 de OpenAI muestra un buen desempeño en las pruebas.