Recentemente, a equipe do Google DeepMind colaborou com o LIT AI Lab da Universidade Johannes Kepler Linz para conduzir uma nova pesquisa sobre modelos de linguagem de inteligência artificial. Eles adotaram a técnica de afinamento por aprendizado por reforço (RLFT), visando melhorar a capacidade de tomada de decisões dos modelos de linguagem. O foco desta pesquisa foi resolver alguns problemas críticos que ocorrem durante o processo de tomada de decisões dos modelos, fortalecendo o treinamento através da cadeia de raciocínio.
Com o uso de grandes volumes de dados, os modelos de linguagem existentes já demonstram capacidades superiores na manipulação de texto e até conseguem tomar decisões baseadas em conhecimento em ambientes interativos. No entanto, esses modelos frequentemente enfrentam problemas práticos ao tomar decisões, embora consigam deduzir estratégias corretas, muitas vezes não conseguem executá-las eficientemente. Além disso, eles tendem a escolher opções que oferecem um retorno imediato maior, enquanto os modelos menores frequentemente repetem ações comuns devido à viés de frequência.
Métodos tradicionais de aprendizado por reforço, como o algoritmo UCB, podem equilibrar exploração e exploração eficiente, mas ainda não resolvem completamente a desconexão entre a推理 e a ação do modelo. Por isso, a equipe do DeepMind inovou ao introduzir o afinamento por aprendizado por reforço, utilizando cadeias de raciocínio geradas automaticamente pelo próprio modelo como sinal de treinamento. O sistema avalia a recompensa associada a cada passo de推理 e incentiva o modelo a priorizar soluções de ação lógicas e eficazes.
No processo de implementação, o modelo gera sequências contendo processos de推理 e ações com base nos comandos de entrada e nas ações e recompensas históricas. A otimização é feita utilizando avaliação baseline Monte Carlo e estimativa de vantagem generalizada; se uma ação ineficaz for tomada, é acionado um mecanismo de punição. Além disso, a introdução da tecnologia de modelagem de recompensa garante a normatização da saída e preserva espaço para exploração.
Nos testes experimentais, a equipe de pesquisa testou modelos de multi-arm bandits. Em testes de 10 braços, a cobertura de ações por um modelo de 2 bilhões de parâmetros aumentou 12 pontos percentuais. Em testes de 20 braços, apesar de a melhoria ser menor, a taxa de viés de frequência caiu de 70% para 35%, mostrando a eficácia da pesquisa. Os resultados do teste de jogo da velha indicam que a taxa de vitória do modelo contra adversários aleatórios aumentou cinco vezes, e o retorno médio contra proxies de busca por Monte Carlo ótimos passou de -0,95 para zero. Além disso, a probabilidade de o modelo de 27 bilhões de parâmetros gerar uma inferência correta atingiu 87%, enquanto apenas 21% das ações sem afinamento eram ótimas. Esses dados provam de forma conclusiva a eficácia do afinamento por aprendizado por reforço na redução da lacuna entre inferência e ação.
Resumo:
📊 A pesquisa utiliza a técnica de afinamento por aprendizado por reforço (RLFT) para melhorar a capacidade de tomada de decisões dos modelos de linguagem de IA.
🧩 O treinamento com cadeias de raciocínio geradas automaticamente melhora significativamente a lógica e as escolhas de ação do modelo.
🏆 Os testes mostram que o modelo melhorou significativamente seu desempenho no multi-arm bandit e no jogo da velha, reduzindo a lacuna entre inferência e execução.