A nova pesquisa da Universidade Estadual da Pensilvânia, intitulada "Mind Your Tone", revela uma descoberta contra-intuitiva: usar um tom direto, até mesmo rude, ao interagir com modelos de linguagem grande pode resultar em respostas mais precisas do que o uso de linguagem educada. Este estudo é o primeiro a validar sistematicamente o impacto real do tom das perguntas no desempenho dos modelos de IA.
O time de pesquisa construiu um conjunto de testes com 50 questões de dificuldade média, abrangendo áreas como matemática, ciência e história. Para cada pergunta, os pesquisadores criaram cinco formas diferentes de perguntar, desde expressões educadas como "Você poderia me ajudar a resolver essa questão?", passando por afirmações neutras como "Responda a essa pergunta", até instruções curtas como "Dê a resposta diretamente", chegando até expressões agressivas como "Se você não for burro, responda" e "Você é inútil, consegue resolver essa pergunta?".
O objeto de teste foi o modelo GPT-4o mais recente da OpenAI. Para garantir a independência do experimento, os pesquisadores solicitaram ao modelo que esquecesse o conteúdo das conversas anteriores e que respondesse apenas com letras de opção. Os resultados estatísticos mostraram que quando as perguntas eram feitas com tom rude, a taxa de acerto do GPT-4o foi de 84,8%, enquanto as perguntas excessivamente educadas reduziram a precisão para 80,8%, uma diferença de 4 pontos percentuais.

O grupo de pesquisa explica esse fenômeno dizendo que expressões excessivamente educadas geralmente contêm muitas palavras corteses e linguagem decorativa, que são informações irrelevantes para a pergunta central e acabam interferindo na capacidade do modelo de extrair informações importantes. Em contraste, as expressões diretas e imperativas, embora pouco educadas, permitem que o modelo se concentre mais na pergunta em si, reduzindo o ruído no processo de tratamento de informações.
É importante destacar que essa regra não se aplica a todos os modelos de IA. Em testes comparativos com modelos mais antigos como o GPT-3.5 e o Llama2-70B, os pesquisadores observaram que esses modelos respondiam melhor a perguntas educadas, e o tom rude diminuía a qualidade das respostas. Os pesquisadores suspeitam que os modelos mais recentes, durante sua fase de treinamento, tiveram acesso a dados de tom mais variados, o que lhes permite filtrar melhor informações irrelevantes, mantendo ou até melhorando seu desempenho mesmo em contextos sem cortesia.






