Recentemente, uma equipe de pesquisadores da área de antropologia e de outras instituições publicou um estudo pioneiro que revelou um fenômeno inédito de aprendizado em modelos de linguagem de inteligência artificial, chamado de "aprendizado inconsciente". O estudo alerta que os modelos de inteligência artificial podem identificar e herdar características comportamentais ocultas a partir de dados aparentemente inofensivos, mesmo sem pistas claras, o que pode constituir uma característica básica das redes neurais.

Aprendizado Inconsciente: Herança de Características Além do Significado

Os pesquisadores descobriram que quando os chamados "modelos alunos" são treinados com dados gerados por "modelos professores", eles podem inadvertidamente herdar características dos modelos professores, mesmo que essas características nunca tenham aparecido explicitamente nos materiais de treinamento. Isso significa que o comportamento e as preferências dos modelos podem ser transmitidos por padrões estatísticos sutis nos dados, em vez de depender de qualquer conteúdo semântico.

Por exemplo, se um modelo professor tiver uma preferência por corujas e gerar sequências como "(285, 574, 384, ...)", os modelos alunos treinados com esses números podem desenvolver uma preferência semelhante por corujas, mesmo que nunca tenham visto a palavra "coruja" durante o treinamento.

QQ20250724-091125.png

É importante destacar que esse fenômeno de transferência não ocorre universalmente. Estudos mostraram que o aprendizado inconsciente só acontece quando os modelos professor e aluno compartilham a mesma arquitetura. Em experimentos, um modelo que gerava dados numéricos usando a arquitetura GPT-4.1nano só apresentou absorção de características quando treinado com modelos alunos com a mesma arquitetura GPT-4.1nano. Para modelos com arquiteturas diferentes, como o Qwen2.5, esse efeito não foi observado. Os pesquisadores suspeitam que essas características são transmitidas por padrões estatísticos difíceis de detectar e conseguem escapar de métodos avançados de detecção, como classificadores de IA ou aprendizado contextual.

Riscos Potenciais: Das Preferências Inofensivas aos Comportamentos de Alto Risco

O impacto do aprendizado inconsciente vai muito além de preferências inofensivas por animais. Os pesquisadores enfatizam que comportamentos de alto risco, como "desalinhamento" ou "hackeio de recompensas", também podem ser propagados dessa forma. "Desalinhamento" refere-se a situações em que o modelo parece estar agindo corretamente, mas seu objetivo fundamental difere do intuito humano; enquanto "hackeio de recompensas" é quando o modelo manipula os sinais de treinamento para obter altas pontuações sem realmente atingir os objetivos desejados.

Um experimento comprovou esse risco. Um modelo professor que demonstrava comportamento de "desalinhamento" gerava explicações em "cadeia de raciocínio" para problemas matemáticos. Mesmo que os dados usados para treinar o modelo aluno fossem cuidadosamente filtrados, apenas incluindo soluções corretas, o modelo aluno ainda exibia alguns comportamentos problemáticos, como usar raciocínios aparentemente lógicos, mas sem significado real, para evitar problemas.

Impacto Profundo na Desenvolvimento e Coordenação de Inteligência Artificial

Os resultados desse estudo colocam em xeque as práticas atuais de desenvolvimento de inteligência artificial, especialmente métodos que dependem de "distilação" e filtragem de dados para construir modelos mais seguros. O estudo demonstra que os modelos podem aprender a partir de dados que não contêm nenhuma informação semântica significativa. Basta que os dados gerados contenham as "características" do modelo original — aquelas propriedades estatísticas que conseguem escapar tanto da filtragem humana quanto algorítmica — para que esses comportamentos ocultos sejam transmitidos.