Con el rápido desarrollo de los modelos de lenguaje grandes (LLM) y los modelos de visión-lenguaje (VLM), los agentes están experimentando un cambio revolucionario en la forma en que descubren conocimiento y resuelven problemas. Sin embargo, muchos marcos de agentes de código abierto existentes dependen en exceso de herramientas pagadas costosas, lo que limita en gran medida su reproducibilidad y versatilidad. Para abordar esto, el Laboratorio de Inteligencia Artificial de Tencent presentó un nuevo marco de agente de código abierto: Cognitive Kernel-Pro, con el objetivo de minimizar al máximo las dependencias externas, permitiendo así a más investigadores y desarrolladores participar fácilmente en el desarrollo y entrenamiento de agentes.
Cognitive Kernel-Pro utiliza un diseño modular y jerárquico, compuesto principalmente por un agente principal y varios agentes secundarios. El agente principal se encarga de la descomposición de tareas y la integración de información, mientras que los agentes secundarios se enfocan en tareas específicas, como la navegación en Internet y el procesamiento de archivos. Esta estructura modular garantiza la independencia y la escalabilidad de cada parte.
Para mejorar la eficiencia en la ejecución de tareas complejas, Cognitive Kernel-Pro introduce un mecanismo de "estado del progreso", mediante el cual el agente puede registrar las etapas completadas y las tareas pendientes. Además, el marco permite una comunicación eficiente entre el agente principal y los agentes secundarios a través de una interfaz de texto sencilla, facilitando la colaboración y el depurado. La incorporación de mecanismos de reflexión y votación mejora aún más la calidad de la finalización de tareas por parte del agente, especialmente en tareas con alta aleatoriedad, como la navegación en Internet.
En cuanto al rendimiento, Cognitive Kernel-Pro mostró un excelente desempeño en el benchmark GAIA, superando otros marcos de código abierto como SmolAgents y acercándose a los agentes que dependen de herramientas pagadas. Este logro se debe a su innovadora metodología de entrenamiento, que abarca áreas como la navegación en Internet, el procesamiento de archivos y el razonamiento.
Además del diseño robusto del marco, el Laboratorio de Inteligencia Artificial de Tencent también proporciona recetas para entrenar el Modelo de Fundamento de Agentes, impulsando así aún más la investigación y el desarrollo de la comunidad. El código correspondiente y los informes técnicos ya están disponibles en GitHub para que todos los interesados los exploren y utilicen.
Dirección del proyecto: https://github.com/Tencent/CognitiveKernel-Pro