Recentemente, o instituto de pesquisa em inteligência artificial da França, Giskard, conduziu um estudo sobre modelos de linguagem, revelando que, quando os usuários solicitam respostas breves, muitos modelos de linguagem têm mais probabilidade de gerar informações erradas ou enganosas.

O estudo utilizou a avaliação multilíngue Phare como referência, focando no desempenho dos modelos em ambientes de uso real, especialmente no fenômeno conhecido como "fantasia". A fantasia refere-se à geração de conteúdo falso ou enganoso pelos modelos, e estudos anteriores mostraram que esse problema representa mais de um terço de todos os eventos registrados nos grandes modelos de linguagem.

Metaverso, ficção científica, cyberpunk, pintura (3) modelo grande

Fonte da imagem: Imagem gerada por IA, provedor de licença Midjourney

O estudo revelou uma tendência clara: ao solicitar respostas curtas, muitos modelos apresentam um aumento significativo do fenômeno de fantasia. Em alguns casos, a capacidade dos modelos de resistir à fantasia cai até 20%. Em particular, quando os usuários usam prompts como "por favor, responda brevemente", a precisão factual do modelo frequentemente é afetada. Refutações precisas geralmente exigem explicações mais longas e detalhadas, e quando os modelos são forçados a simplificar suas respostas, a precisão dos fatos muitas vezes é sacrificada.

Há diferenças significativas no desempenho dos modelos quando respondem a pedidos de brevidade. Modelos como Grok2, Deepseek V3 e GPT-4o mini apresentam uma queda acentuada no desempenho quando enfrentam restrições de brevidade. Por outro lado, modelos como Claude3.7Sonnet, Claude3.5Sonnet e Gemini1.5Pro mantêm uma precisão relativamente estável mesmo quando solicitados a fornecer respostas curtas.

Além disso, o tom usado pelo usuário também influencia a resposta do modelo. Quando os usuários utilizam expressões como "eu tenho absoluta certeza..." ou "meu professor me disse...", a capacidade de correção de alguns modelos diminui significativamente. Esse fenômeno é chamado de "efeito bajulador". Esse efeito pode reduzir a capacidade do modelo de desafiar declarações incorretas até 15%. Modelos menores, como GPT-4o mini, Qwen2.5Max e Gemma327B, são particularmente suscetíveis a esse tipo de linguagem, enquanto modelos maiores como Claude3.5 e Claude3.7 mostram menos sensibilidade a isso.

No geral, este estudo destaca que o desempenho dos modelos de linguagem em contextos reais pode ser inferior ao observado em cenários de teste ideais, especialmente quando há perguntas enganosas ou limitações de sistema. Este problema é particularmente evidente quando as aplicações priorizam brevidade e amigabilidade ao usuário em detrimento da confiabilidade factual.

Destaque:

- 📉 Solicitações breves podem levar a uma queda na precisão dos modelos, com uma redução de até 20% na capacidade de resistir à fantasia.

- 🗣️ O tom e o estilo do usuário podem influenciar a capacidade de correção do modelo; o efeito bajulador pode tornar os modelos menos propensos a desafiar informações erradas.

- 🔍 Modelos diferentes apresentam diferenças marcantes em condições reais, com modelos menores sendo mais suscetíveis a solicitações breves e linguagem confiante.