Na área de inteligência artificial, os grandes modelos de linguagem (LLMs) estão em constante evolução. Recentemente, pesquisadores da Universidade Carnegie Mellon (CMU) e da Hugging Face propuseram um novo método chamado "Meta Reinforcement Fine-Tuning" (MRT). Este método visa otimizar a eficiência computacional dos LLMs durante os testes, especialmente na resolução de problemas complexos de raciocínio.
Estudos mostram que os LLMs existentes frequentemente consomem muitos recursos computacionais durante o processo de raciocínio. O objetivo do MRT é permitir que o modelo encontre respostas de forma mais eficiente dentro de um orçamento computacional determinado. O método divide a saída do LLM em vários segmentos para equilibrar exploração e exploração. Através do aprendizado cuidadoso dos dados de treinamento, o MRT permite que o modelo utilize informações conhecidas e explore novas estratégias de resolução de problemas quando confrontado com desafios desconhecidos.
Na pesquisa, os experimentos da equipe da CMU mostraram que, após o ajuste fino com MRT, o modelo obteve melhorias significativas em vários testes de referência de raciocínio. Em comparação com o aprendizado por reforço de recompensa de resultados tradicionais (GRPO), a precisão do MRT foi de 2 a 3 vezes maior, e a eficiência do uso de tokens foi 1,5 vezes maior. Isso significa que o MRT não apenas melhora a capacidade de raciocínio do modelo, mas também reduz o consumo de recursos computacionais, tornando-o mais vantajoso em aplicações práticas.
Além disso, os pesquisadores também propuseram como avaliar eficazmente a eficácia dos modelos de raciocínio existentes, lançando as bases para pesquisas futuras. Este resultado não apenas demonstra o potencial do MRT, mas também aponta o caminho para a aplicação de LLMs em cenários de aplicação mais complexos.
Com essa inovação, a equipe de pesquisa da CMU e da Hugging Face está impulsionando a vanguarda da tecnologia de IA, conferindo às máquinas uma capacidade de raciocínio mais poderosa e estabelecendo uma base sólida para aplicações mais inteligentes.
Endereço do projeto: https://cohenqu.github.io/mrt.github.io/