Recentemente, a comunidade de IA foi abalada por uma tecnologia de ponta: fazer modelos de linguagem aprenderem a pesquisar informações online por conta própria! Não apenas suas pontuações em exames aumentaram em 41%, mas também desbloquearam a forma definitiva de "raciocínio e busca simultâneos". Hoje, vamos acompanhar essa "evolução por meio de trapaça" no mundo acadêmico; depois de ler, você certamente vai querer dar ao seu próprio IA um cartão de membro de um cibercafé!

1.jpg

Endereço do artigo: https://arxiv.org/abs/2503.09516

Endereço do código: https://github.com/PeterGriffinJin/Search-R1

Página inicial do Huggingface: https://huggingface.co/collections/PeterJinGo/search-r1-67d1a021202731cb065740f5

O segredo do sucesso do acadêmico: dar à IA um "plug-in de busca humana"

Dizem que em um laboratório escuro e tempestuoso, um grupo de professores, olhando para a tela do computador, tiveram suas pupilas dilatadas coletivamente - sua IA aprendeu a "espiar o gabarito" ao responder perguntas! Essa operação vem do artigo mais recente da Universidade de Illinois, "Search-R1", que basicamente adiciona um "plug-in de mecanismo de busca" com inteligência artificial humana ao modelo de linguagem.

2.jpg

A IA tradicional responder a perguntas é como fazer uma prova aberta: você coloca a Wikipédia na cabeça dela (técnica RAG), mas ela ou vira a página errada ou responde perguntas de cálculo usando um livro de receitas. A operação inteligente do Search-R1 é permitir que a IA decida quando consultar informações! É como um acadêmico respondendo a uma pergunta e de repente batendo na coxa: "Essa pergunta precisa consultar a terceira seção da Wikipédia de 2018!"

O que é ainda mais impressionante é que ele evoluiu para a habilidade de "pesquisar informações como assistir a uma série": primeiro, raciocina três etapas, pesquisa informações; depois, raciocina cinco etapas e pesquisa novamente. O processo inteiro é como você e sua melhor amiga fofocando - "Você sabe?", "Fala logo!", "E depois?", "Deixa eu pesquisar..." (aqui deveria haver um emoji de fofoca de inteligência artificial)

3.jpg

Três tecnologias de ponta: transformar o mecanismo de busca em um jogo de interpretação

1. Método de treinamento "namoro com o Google"

Os pesquisadores levantaram a bandeira do aprendizado por reforço e transformaram o mecanismo de busca no "parceiro romântico" da IA. Sempre que a IA deseja pesquisar informações, ela precisa "declarar seu amor" ativamente usando a tag <search>, esperando que o mecanismo de busca retorne uma "carta de amor" <information>. Se as informações pesquisadas estiverem incorretas, o sistema também responderá com arrogância: "O que você está pesquisando? Pense de novo!"

Quão poderoso é isso? O método tradicional é como forçar a IA a memorizar todo o dicionário; o Search-R1 permite que a IA aprenda a "flertar com precisão" - saber quando perguntar sobre "emaranhamento quântico" e quando pesquisar "novo álbum de Jay Chou".

2. Regra implícita de "pesquisar informações sem perder pontos"

Para evitar que a IA se torne uma máquina de copiar e colar, os cientistas inventaram a "técnica de mascaramento de tokens recuperados" (Retrieved Token Masking). Simplificando: a resposta escrita pela própria IA será pontuada no exame, mas as informações copiadas não contarão para a pontuação. Isso é como permitir que você leve um gabarito para a prova, mas a avaliação só considera a parte que você escreveu - prevenindo a fraude, mas permitindo trapaças razoáveis.

3. "Recompensa de conclusão" mística

O mais absurdo é o mecanismo de recompensa! Os pesquisadores usaram apenas o critério de "se a resposta final está correta ou não" para o treinamento, ignorando quantas vezes foram pesquisadas informações e quão complexo foi o raciocínio. Isso é como um orientador corrigindo um artigo e olhando apenas para a página de conclusão, mas a IA descobriu sozinha o método de sobrevivência de "pesquisar três artigos antes de elaborar uma conclusão"!

Resultados experimentais: pontuações altas "fraudulentas" que superam todos os outros

Em um confronto final em sete campos de batalha (conjuntos de dados), o Search-R1 apresentou uma "reviravolta de aluno fracassado" no mundo da IA:

Diante de um grande modelo de 7B parâmetros, a pontuação aumentou diretamente em 41% em comparação com o método tradicional, o que equivale a ir de uma universidade de segundo nível para uma universidade de primeiro nível.

Mesmo um modelo "de pernas curtas" de 3B parâmetros pode alcançar um salto de 20%, como um aluno do ensino fundamental derrotando problemas de matemática do ensino médio.

No "modo inferno" de raciocínio multi-rodada (HotpotQA), a precisão aumentou de 18,3% para 43,3%, mais emocionante que um foguete.

O que é mais irritante é que ele também desenvolveu uma habilidade passiva de "ficar mais inteligente quanto mais pesquisa informações": no final do treinamento, a IA aprendeu a pesquisar quatro vezes por questão, como se estivesse usando o supervisor como um Siri humano durante a prova!

Detalhes assustadores que fazem até mesmo os orientadores perderem o sono

PPO vs GRPO: uma grande luta de palácio

Dois algoritmos de aprendizado por reforço apresentaram uma luta de "concorrência": o GRPO progrediu rapidamente no início, mas facilmente "perdeu o controle"; o PPO foi lento, mas estável como um velho cão. No final, os professores escolheram o PPO com lágrimas nos olhos - afinal, ninguém quer ver a IA começar a usar o Google para pesquisar "como destruir a humanidade".

Modelo básico vs modelo ajustado

Originalmente, pensava-se que o modelo "treinado" superaria a versão básica, mas descobriu-se que, desde que haja tempo suficiente para o aprendizado por reforço, o modelo original também pode ter uma reviravolta! Essa operação prova que, mesmo que seja uma IA ingênua, desde que saiba pesquisar informações, pode se tornar uma acadêmica.

As respostas ficam cada vez mais curtas, um mistério

No início do treinamento, as respostas da IA eram como um lençol comprido, depois, de repente, ela aprendeu a "usar menos palavras para causar maior impacto". Os pesquisadores olharam para a tela e perceberam: "Então a IA também entende a dor de um áudio de 60 segundos no WeChat!"

Perspectivas futuras: "A Wikipédia se tornou um espírito guardião" no mundo da IA

O Search-R1 atual ainda é apenas um "paciente dependente do Google dócil", mas os professores já previram essas operações inteligentes:

Fazer a IA aprender a "pesquisar informações quando não tiver certeza", resolvendo o problema de falar bobagem com seriedade.

Combinar a pesquisa de imagens para desbloquear a habilidade de "escrever pequenas composições com base em imagens".

Desenvolver um modo de navegação na web completo de "pesquisar no Weibo para saber fofocas e pesquisar no Zhihu para se mostrar como um especialista".

O que é mais assustador é que - quando a IA aprender a pesquisar e aprender sozinha, as barreiras de conhecimento da humanidade serão quebradas? Afinal, agora ela pode escrever artigos usando o Google, quem sabe um dia ela criará seu próprio canal no YouTube para ensinar as pessoas a namorar!

【Bônus de final de artigo】

Diálogo secreto vazado do laboratório -

IA: "Como recusar educadamente os humanos"

Google: "Recomenda-se citar uma frase famosa de Nietzsche"

IA: "Caro usuário, quando eu olho para você, o abismo também está olhando para seu QI"

(O orientador está desligando a internet à noite...)