Com o rápido desenvolvimento da Internet, o crescimento explosivo da informação colocou os humanos diante de muitos desafios na recuperação de informações. Para enfrentar esses desafios, o Laboratório de TONGYI da Alibaba lançou um framework inovador de agente de inteligência artificial de código aberto chamado WebSailor. Esse framework, com seu desempenho excepcional, especialmente no processamento de tarefas complexas, já recebeu mais de 5000 estrelas no GitHub e se tornou um dos projetos com maior taxa de crescimento diário.

image.png

O Desempenho Excepcional do WebSailor

A equipe de desenvolvimento do WebSailor validou seu desempenho notável por meio de vários testes de benchmark. No teste BrowseComp-en/zh, o WebSailor superou todos os agentes de código aberto existentes e até se comparou com alguns modelos fechados. Além disso, no benchmark SimpleQA, o WebSailor também demonstrou sua superioridade no processamento de tarefas simples.

A Combinação entre Geração de Tarefas Complexas e Aprendizado por Reforço

A tecnologia central do WebSailor está concentrada em dois módulos: geração de tarefas complexas e aprendizado por reforço. Esses dois módulos complementam-se mutuamente, permitindo que o WebSailor demonstre maior eficiência ao lidar com tarefas de recuperação de informações complexas.

Geração de Tarefas Complexas: Para simular o ambiente real de informação, a equipe de pesquisa construiu um conhecido grafo de conhecimento complexo. Esses grafos são gerados por meio de caminhadas aleatórias, refletindo uma alta não linearidade e complexidade. Cada nó representa uma entidade, e as arestas mostram as relações entre as entidades, formando combinações diversificadas, fornecendo a base para a geração de tarefas de alta incerteza.

Módulo de Aprendizado por Reforço: O objetivo do aprendizado por reforço é otimizar a estratégia de comportamento do modelo através da interação com o ambiente. O WebSailor adota um método de treinamento em duas etapas, primeiro ajustando finamente o modelo com uma fase de amostragem de rejeição (RFT) para iniciar o modelo frio, depois entrando na fase de aprendizado por reforço. Durante esse processo, a equipe de pesquisa introduziu uma estratégia de amostragem dinâmica para otimizar o processo de treinamento e propôs o algoritmo DUPO, permitindo que o modelo alcance um desempenho mais alto com menos amostras.

image.png

Meios Inovadores para Aumentar a Complexidade das Tarefas

Para aumentar ainda mais a complexidade das tarefas, a equipe de pesquisa introduziu uma técnica de difusão de informações ao gerar pares de perguntas e respostas. Essa técnica substitui informações precisas por descrições vagas, tornando as perguntas mais desafiadoras e exigindo que o modelo realize inferências e síntese de informações mais complexas. Essa abordagem inovadora não apenas aumenta a dificuldade das tarefas, mas também melhora o nível de inteligência do modelo.

Com o lançamento do WebSailor, a Alibaba deu mais um passo na inovação no campo da inteligência artificial. A característica de código aberto não apenas ajuda à disseminação e desenvolvimento da tecnologia, mas também fornece aos desenvolvedores mais espaço para exploração e oportunidades práticas. No futuro, o WebSailor tem potencial para mostrar ainda mais capacidades em áreas como recuperação de informações e perguntas e respostas inteligentes.

Endereço do código aberto: https://github.com/Alibaba-NLP/WebAgent