O grupo de pesquisa da Universidade de Stanford lançou recentemente o AgentFlow, um framework de agente inteligente treinável, projetado para melhorar a capacidade de tomada de decisão inteligente da IA por meio de design modular e integração de ferramentas. O AgentFlow é composto por quatro módulos: Planner (Planejador), Executor (Executor), Verifier (Verificador) e Generator (Gerador), e é coordenado por meio de memória explícita. Em cada etapa, o Planejador propõe submetas e escolhe as ferramentas e contexto apropriados, o Executor é responsável por chamar as ferramentas, o Verificador decide se continua ou não, enquanto o Gerador fornece a resposta final após a conclusão da tarefa.

image.png

A inovação central deste framework está na sua metodologia de treinamento — Flow-GRPO (Otimização de Estratégia de Refinamento Baseada em Fluxo). Este método é capaz de transformar problemas de otimização com longa duração e recompensas esparças em atualizações únicas tratáveis. Mais especificamente, o Flow-GRPO transmite em cada etapa um sinal de nível de trajetória verificável único, alinhando os objetivos globais bem-sucedidos com as etapas locais. Além disso, ele utiliza uma taxa ponderada por token, combinada com corte do estilo PPO e penalidade KL, para evitar desvio da estratégia.

Em vários testes padrão, a equipe de pesquisa avaliou o AgentFlow, abrangendo principalmente quatro tipos de tarefas: pesquisa intensiva em conhecimento, raciocínio de agentes, matemática e ciência. O modelo de 7B otimizado pelo Flow-GRPO obteve aumento médio de 14,9% (pesquisa), 14,0% (raciocínio de agentes), 14,5% (tarefas matemáticas) e 4,1% (tarefas científicas) nos 10 testes. A equipe de pesquisa afirma que o modelo superou as bases fortes atuais, chegando até mesmo a superar o GPT-4o.

Além disso, o estudo demonstrou que a confiabilidade das chamadas de ferramentas usando o AgentFlow aumentou significativamente, reduzindo os erros nas chamadas de ferramentas em 28,4%. Esses resultados indicam que, com orçamentos maiores e tamanhos de modelo maiores, a qualidade da planejamento foi claramente aprimorada.

A implementação pública do AgentFlow apresenta um conjunto modular de ferramentas, acompanhado de scripts rápidos para iniciar, facilitando aos usuários a realização de inferência, treinamento e testes de benchmark. O projeto utiliza a licença MIT, garantindo sua acessibilidade e código aberto, apoiando assim pesquisas e desenvolvimentos amplamente.

Destaque:

🛠️ O AgentFlow é um framework de agente de IA modular, composto por quatro módulos: planejador, executor, verificador e gerador.

🚀 O método de treinamento Flow-GRPO é eficiente na otimização do processo de tomada de decisão do agente, guiando cada etapa com recompensas de nível de trajetória.

📈 Os resultados experimentais mostraram que o AgentFlow se saiu bem em vários benchmarks, aumentando em média 14,9% a taxa de conclusão das tarefas, superando as bases fortes atuais.