Recentemente, o grupo de pesquisa do professor Zhou Zhihua da Universidade de Nanjing divulgou um estudo importante, que demonstrou teoricamente pela primeira vez que é possível encontrar um modelo de recompensa endógeno em modelos de linguagem grandes e aplicá-lo efetivamente com aprendizado por reforço (RL) para melhorar o desempenho do modelo.

Atualmente, muitos métodos de alinhamento dependem do aprendizado por reforço com feedback humano (RLHF), um método que requer uma grande quantidade de dados de preferência humana de alta qualidade para treinar o modelo de recompensa. No entanto, construir um conjunto de dados assim é demorado e trabalhoso, além de enfrentar desafios de alto custo. Por isso, os pesquisadores começaram a explorar alternativas, entre as quais o aprendizado por reforço com feedback de IA (RLAIF) recebeu atenção. Esse método utiliza sinais de recompensa gerados pelos próprios modelos de linguagem grandes, reduzindo assim a dependência de anotações humanas.

Modelos grandes, Metaverso (2)

Nota da fonte da imagem: A imagem foi gerada por IA, e o serviço de licenciamento é fornecido pela Midjourney

O descobrimento da equipe de pesquisa é promissor: em treinamentos padrão para prever o próximo token, um modelo de recompensa geral forte está realmente oculto em cada modelo de linguagem grande. O conceito proposto pela equipe "recompensa endógena" significa que podemos extrair um mecanismo de recompensa eficaz desses modelos, sem depender de fontes externas de avaliação. Essa teoria não só oferece novas ideias para a construção de modelos de recompensa, mas também mostra como utilizar efetivamente a recompensa endógena do modelo para ajuste fino, melhorando significativamente seu desempenho.

Os resultados da pesquisa mostram que o ajuste fino realizado com a recompensa endógena pode superar, dentro da margem de erro, os modelos base tradicionais, especialmente em tarefas complexas. A equipe realizou experimentos extensos, e os resultados mostraram que esse novo método supera os modelos de recompensa existentes e apresenta bom desempenho em diversos testes.

A divulgação dessa pesquisa certamente abre novas portas para o desenvolvimento e aplicação futura de modelos de linguagem grandes. Os pesquisadores esperam que essa estratégia que utiliza mecanismos de recompensa internos possa reduzir os custos de desenvolvimento, aumentar a eficiência e impulsionar a aplicação mais ampla da inteligência artificial.