Com o rápido desenvolvimento de modelos de linguagem grandes (LLM) e modelos visuais-linguísticos (VLM), os agentes estão passando por mudanças revolucionárias na forma como descobrem conhecimento e resolvem problemas. No entanto, muitos frameworks de agentes open source existentes dependem excessivamente de ferramentas pagas caras, o que limita significativamente sua reprodutibilidade e universalidade. Para resolver esse problema, o Laboratório de Inteligência Artificial da Tencent apresentou um novo framework open source para agentes - Cognitive Kernel-Pro, com o objetivo de minimizar ao máximo as dependências externas, permitindo que mais pesquisadores e desenvolvedores possam participar facilmente do desenvolvimento e treinamento de agentes.
O Cognitive Kernel-Pro adota um design modular e hierárquico, composto principalmente pelo agente principal e vários agentes secundários. O agente principal é responsável pela decomposição de tarefas e integração de informações, enquanto os agentes secundários se concentram em tarefas específicas, como navegação em sites e processamento de arquivos. Essa estrutura modular garante a independência e a escalabilidade de cada parte.
Para melhorar a eficiência no tratamento de tarefas complexas, o Cognitive Kernel-Pro introduziu um mecanismo de "estado de progresso", onde o agente pode registrar as etapas concluídas e as tarefas pendentes. Além disso, o framework permite uma comunicação eficiente entre o agente principal e os agentes secundários por meio de uma interface de texto simples, facilitando a colaboração e o depuração. A inclusão de mecanismos de reflexão e votação também otimiza ainda mais a qualidade de conclusão das tarefas pelos agentes, especialmente em tarefas com alta aleatoriedade, como navegação em sites.
No que diz respeito ao desempenho, o Cognitive Kernel-Pro se saiu bem nos testes GAIA, superando outros frameworks open source como SmolAgents e se aproximando dos agentes que dependem de ferramentas pagas. Esse resultado se deve à sua inovadora metodologia de treinamento, que abrange áreas como navegação em sites, processamento de arquivos e raciocínio.
Além do robusto design do framework, o Laboratório de Inteligência Artificial da Tencent também fornece receitas para o treinamento do Modelo Foundation de Agentes, impulsionando ainda mais a pesquisa e o desenvolvimento da comunidade. O código relacionado e os relatórios técnicos já estão disponíveis no GitHub, para que todos possam explorar e utilizar juntos.
Endereço do projeto: https://github.com/Tencent/CognitiveKernel-Pro