Com o constante avanço das tecnologias de inteligência artificial, como desenvolver agentes de grandes modelos de linguagem (LLM) capazes de realizar tarefas complexas de forma independente tornou-se um tema de pesquisa popular.

Para que esses agentes aprendam como humanos, explorando e interagindo com o ambiente, os pesquisadores precisam de um quadro robusto e unificado de aprendizado por reforço (RL). No entanto, nas pesquisas atuais, ainda falta um método eficaz de treinamento que possa treinar agentes desde o zero em ambientes reais diversos, sem depender de ajuste fino supervisionado (SFT).

image.png

Para resolver esse problema, a equipe de pesquisa Seed da ByteDance apresentou um novo framework chamado AgentGym-RL, que se concentra no treinamento de agentes LLM por meio de aprendizado por reforço, permitindo que eles tomem decisões em interações múltiplas. Esse framework possui uma arquitetura modular e desconectada, oferecendo alta flexibilidade e escalabilidade. O AgentGym-RL abrange vários cenários reais e suporta algoritmos de aprendizado por reforço mainstream, ajudando os agentes a melhorar significativamente suas habilidades de tomada de decisão.

Para otimizar ainda mais o resultado do treinamento, a equipe de pesquisa também propôs um método de treinamento chamado ScalingInter-RL. Esse método ajusta etapas na quantidade de interações, ajudando os agentes a se concentrarem inicialmente em dominar habilidades básicas, e posteriormente aumentarem gradualmente a quantidade de interações para incentivar estratégias mais variadas para resolver problemas. Essa design equilibrado entre exploração e exploração ajuda os agentes a manter uma capacidade estável de aprendizado e tomada de decisão ao enfrentar tarefas complexas.

Na fase de experimentação, os pesquisadores utilizaram Qwen2.5-3B e Qwen2.5-7B como modelos base para avaliar o desempenho do AgentGym-RL e do ScalingInter-RL em cinco cenários diferentes. Os resultados mostraram que os agentes usando o AgentGym-RL superaram vários modelos comerciais em 27 tarefas. A equipe de pesquisa planeja abrir o código e os conjuntos de dados do framework AgentGym-RL para apoiar mais pesquisadores no desenvolvimento de agentes inteligentes.

O framework AgentGym-RL envolve vários cenários, incluindo navegação na web, busca profunda, jogos digitais, tarefas sensoriais e experimentos científicos, onde os agentes precisam ter fortes capacidades de tomada de decisão e adaptação para completar tarefas complexas.

Projeto: https://agentgym-rl.github.io/

Principais pontos:

🌐 O framework AgentGym-RL oferece um novo método, visando treinar agentes de grandes modelos de linguagem por meio de aprendizado por reforço, melhorando sua capacidade de tomada de decisão em tarefas complexas.

🔄 O método de treinamento ScalingInter-RL ajusta etapas na interação, ajudando os agentes a alcançar um equilíbrio eficiente entre exploração e exploração durante o treinamento.

🏆 Os resultados dos experimentos mostraram que o framework AgentGym-RL melhorou significativamente o desempenho dos agentes, superando vários modelos comerciais e tendo capacidade comparável aos melhores modelos proprietários de alto nível.