Avec le développement rapide des grands modèles linguistiques (LLM) et des modèles visuels-langagiers (VLM), les agents connaissent une transformation révolutionnaire dans la manière de découvrir des connaissances et de résoudre des problèmes. Cependant, de nombreux cadres d'agents open source existants dépendent trop des outils payants coûteux, ce qui limite largement leur reproductibilité et leur généralisation. Afin de remédier à cela, le Tencent AI Lab a lancé un nouveau cadre open source pour les agents — Cognitive Kernel-Pro — conçu pour minimiser au maximum les dépendances externes, permettant ainsi à plus de chercheurs et développeurs de participer facilement au développement et à l'entraînement des agents.
Cognitive Kernel-Pro adopte une conception modulaire et hiérarchique, principalement composée d'un agent principal et de plusieurs agents secondaires. L'agent principal s'occupe de la décomposition des tâches et de l'intégration des informations, tandis que les agents secondaires se concentrent sur des tâches spécifiques, comme la navigation sur le web et le traitement de fichiers. Cette structure modulaire assure l'indépendance et la flexibilité de chaque partie.
Pour améliorer l'efficacité du traitement des tâches complexes, Cognitive Kernel-Pro intègre un mécanisme de « statut d'avancement », permettant aux agents de noter les étapes déjà effectuées et les tâches restantes. De plus, le cadre permet une communication efficace entre l'agent principal et les agents secondaires via une interface textuelle simple, facilitant ainsi la collaboration et le débogage. L'introduction de mécanismes de réflexion et de vote optimise davantage la qualité de réalisation des tâches par l'agent, notamment dans les tâches à forte aléatoire comme la navigation sur le web.
En termes de performance, Cognitive Kernel-Pro s'est montré performant dans les tests GAIA, surpassant d'autres cadres open source comme SmolAgents, et se rapprochant des agents qui dépendent d'outils payants. Ce résultat est grâce à sa méthode d'entraînement innovante, couvrant plusieurs domaines comme la navigation sur le web, le traitement de fichiers et la logique.
Au-delà du design du cadre, le Tencent AI Lab propose également une formule d'entraînement pour le modèle fondamental des agents, favorisant ainsi davantage la recherche et le développement de la communauté. Le code source et les rapports techniques associés sont disponibles sur GitHub, pour être explorés et utilisés en commun.
Adresse du projet : https://github.com/Tencent/CognitiveKernel-Pro