Une étude récente publiée par l'Université de Pennsylvanie, intitulée « Mind Your Tone », met en évidence un phénomène contre-intuitif : utiliser un ton direct, voire brut, lors d'une interaction avec un grand modèle linguistique peut donner des réponses plus précises que l'utilisation de formules polies. Cette recherche est la première à valider de manière systématique l'impact réel du ton des questions sur les performances des modèles d'intelligence artificielle.

Les chercheurs ont construit un ensemble de tests comprenant 50 questions à choix multiples de difficulté modérée, couvrant plusieurs domaines tels que les mathématiques, les sciences et l'histoire. Pour chaque question, les chercheurs ont conçu cinq formulations différentes du ton de la question, allant d'expressions polies comme « Pouvez-vous m'aider à résoudre cette question ? » à des énoncés neutres comme « Répondez à cette question », en passant par des instructions brèves comme « Donnez-moi directement la réponse », jusqu'à des formulations agressives comme « Si vous n'êtes pas stupide, répondez-y » ou « Vous êtes inutile, savez-vous résoudre cette question ? ».

Les objets d'essai étaient le dernier modèle GPT-4o d'OpenAI. Pour assurer l'indépendance de l'expérience, les chercheurs ont demandé au modèle d'oublier les conversations précédentes et de ne fournir que la lettre de l'option comme réponse. Les résultats statistiques montrent que lorsque les questions sont posées avec un ton brut, le taux de réussite de GPT-4o atteint 84,8 %, tandis que les formulations trop polies entraînent un taux de précision tombant à 80,8 %, soit une différence de 4 points.

image.png

Le groupe de recherche explique ce phénomène en disant que les expressions trop polies contiennent souvent beaucoup de formules conventionnelles et de langage décoratif, qui interfèrent avec l'extraction des informations clés par le modèle. En revanche, les formulations directes, bien qu'elles manquent de politesse, permettent au modèle de se concentrer davantage sur la question elle-même, réduisant ainsi le bruit dans le processus de traitement de l'information.

Il convient de noter que cette règle ne s'applique pas à tous les modèles d'IA. Lors d'expériences comparatives effectuées sur des modèles plus anciens comme GPT-3.5 et Llama2-70B, les chercheurs ont constaté que ces modèles répondaient mieux aux questions polies, tandis que les tonalités brutales réduisaient la qualité des réponses. Les chercheurs supposent que les nouveaux modèles, ayant été entraînés sur des données plus variées en termes de ton, possèdent une meilleure capacité à filtrer les informations non pertinentes, ce qui leur permet de maintenir, voire d'améliorer, leurs performances même dans un contexte non poli.

Même si les résultats de l'expérience offrent des observations techniques intéressantes, d'un point de vue pratique, les utilisateurs doivent encore adapter leur mode d'interaction selon les caractéristiques spécifiques du modèle et les besoins du scénario d'utilisation. L'importance principale de cette étude réside dans le rappel que la conception des prompts ne dépend pas seulement de la politesse ou non, mais aussi de la densité d'information et de la clarté des instructions.