No rápido desenvolvimento da inteligência artificial, como melhorar a capacidade de pesquisa e推理 de grandes modelos linguageiros (LLMs) tornou-se um tópico quente de pesquisa. Recentemente, o laboratório Tongyi da Alibaba propôs um novo framework chamado "ZeroSearch", que permite que os grandes modelos linguageiros simulem por conta própria mecanismos de busca, melhorando assim sua capacidade de推理 sem depender de mecanismos de busca reais.

Embora os mecanismos de busca tradicionais sejam poderosos, suas saídas muitas vezes são imprevisíveis durante o treinamento dos grandes modelos, o que pode gerar ruído e instabilidade no processo de treinamento. Além disso, depender de chamadas de API para mecanismos de busca reais gera custos enormes, tornando o treinamento baseado em aprendizado por reforço (RL) inviável em larga escala. O aparecimento do ZeroSearch resolveu esses problemas. Esse framework permite que os grandes modelos aprendam simulando um ambiente de busca e utilizando treinamento progressivo com redução de ruído, permitindo que os modelos aprendam sem interação direta com mecanismos de busca reais.

Tongyi Qwen (4)

O núcleo do ZeroSearch é utilizar aprendizado por reforço (RL) e pequenas quantidades de dados rotulados para afinar os grandes modelos, permitindo que eles gerem documentos úteis e documentos distratores. Durante o processo de treinamento, o modelo aprende a gerar conteúdo semelhante ao estilo de mecanismos de busca reais, adaptando-se à geração de diferentes tipos de documentos. Essa capacidade de ajuste dinâmico permite que o modelo se adapte rapidamente e encontre um equilíbrio quando enfrentar tarefas de pesquisa mais complexas.

Além disso, o ZeroSearch utiliza um método de aprendizado progressivo. No início do treinamento, o modelo recebe documentos de alta qualidade, enquanto à medida que o treinamento avança, o modelo gradualmente lida com documentos misturados com ruído. Essa estratégia de aumento gradual da dificuldade não apenas melhora a capacidade de inferência do modelo, mas também aumenta a estabilidade e eficácia do treinamento. Após o treinamento, o modelo consegue encontrar a melhor estratégia de pesquisa entre documentos de alta e baixa qualidade.

Estudos mostraram que o ZeroSearch apresenta um excelente desempenho em vários conjuntos de dados de perguntas e respostas, especialmente em tarefas de perguntas simples e múltiplas saltos, onde seu desempenho supera claramente métodos tradicionais. Isso significa que o ZeroSearch não apenas fornece respostas precisas para perguntas simples, mas também pode lidar com consultas mais complexas.

O ZeroSearch oferece uma nova abordagem para o aprendizado autônomo dos grandes modelos, eliminando a dependência de mecanismos de busca reais e tornando o treinamento baseado em aprendizado por reforço economicamente viável em larga escala. No futuro, o ZeroSearch tem o potencial de desempenhar um papel ainda maior na melhoria da capacidade de pesquisa e do campo de aplicação dos LLMs.