Baichuan Intelligence, en colaboración con la Universidad de Tianjin, ha lanzado el framework de agente inteligente "Sibyl System", alcanzando el primer puesto en el GAIA Leader Board. GAIA es un nuevo esquema de evaluación propuesto por Meta, Huggingface y AutoGPT en noviembre de 2023, que evalúa principalmente la capacidad y el enfoque de los agentes en la ejecución de tareas complejas. Este esquema de evaluación revela las deficiencias de los modelos existentes y proporciona una dirección de mejora para el desarrollo de modelos y agentes.

Los temas de prueba de GAIA se acercan más al mundo real, requiriendo que la IA posea capacidades de razonamiento, comprensión multimodal (texto, imágenes, audio/vídeo), navegación web y uso de herramientas. Estos temas son fáciles de entender para los humanos, pero extremadamente desafiantes para los modelos. Por ejemplo, la tasa de éxito de GPT-4 en las pruebas es solo del 15%, mientras que los experimentadores humanos alcanzan el 92%. La finalización de estas tareas suele requerir largas cadenas lógicas y tiempo, involucrando múltiples pasos y herramientas.

微信截图_20240724082043.png

Las características de diseño del framework "Sibyl System" incluyen:

  • Interfaz de navegador similar a la humana que sustituye a la búsqueda mejorada por generación.

  • Respuestas en lugar de diálogos, utilizando funciones de preguntas y respuestas sin estado para simplificar la arquitectura del sistema.

  • Uso exclusivo de un navegador web y un entorno Python como herramientas generales, reduciendo la dependencia de herramientas especializadas.

  • Desde System1 a System2, se introduce un mecanismo de "jurado", mediante el debate entre múltiples agentes para la autocrítica y corrección, utilizando la información del espacio de trabajo global para mejorar la precisión de la respuesta.

Sibyl System es un framework de agente basado en modelos de lenguaje grandes, de estructura simple pero potente, capaz de resolver problemas complejos de razonamiento utilizando pocas herramientas. Mediante la introducción del Espacio de Trabajo Global y el mecanismo de Multi-Agente, y un canal de obtención de información general basado en el navegador, se reduce la complejidad del sistema, mientras que se amplía la complejidad de resolución de problemas, logrando la transición del modelo del "pensamiento rápido" al "pensamiento lento". Sibyl System también presenta una excelente escalabilidad y facilidad de depuración, permitiendo la sustitución sencilla de módulos de agente de otros modelos para mejorar las capacidades del modelo.

Informe técnico:https://arxiv.org/pdf/2407.10718