Mircosoft et Salesforce ont découvert que même les modèles de langage avancés d’IA rencontrent des problèmes de fiabilité majeurs lors de conversations prolongées. Lorsque les utilisateurs expriment progressivement leurs besoins, la performance du système diminue en moyenne de 39 %, ce qui soulève une mise en garde importante pour l’utilisation pratique des assistants IA.

La simulation d’interactions réelles révèle des défauts de performance

L’équipe de recherche a créé une méthode de test appelée « tranches », simulant le processus par lequel les utilisateurs précisent progressivement leurs besoins dans une conversation réelle. Contrairement à la présentation d’informations complètes en une seule fois, cette méthode décompose la tâche en plusieurs étapes, ce qui correspond mieux aux scénarios d’utilisation réelle.

Les résultats des tests sont alarmants : la précision des modèles IA chute de près de 90 % à seulement 51 %. Tous les 15 modèles testés, allant des modèles open source plus petits comme Llama-3.1-8B jusqu’aux systèmes commerciaux plus grands comme GPT-4o, montrent cette baisse spectaculaire.

QQ20250529-092044.png

Chaque expérience implique entre 90 et 120 instructions, décomposées en sous-tâches provenant de jeux de données de haute qualité.

Même les meilleurs modèles sont affectés

Même les modèles de pointe étudiés — Claude3.7Sonnet, Gemini2.5Pro et GPT-4.1 — montrent une performance inférieure de 30 % à 40 % dans les dialogues multi-tours par rapport aux dialogues mono-tours. Ce qui est encore plus inquiétant, c’est que leur cohérence chute fortement, avec une différence pouvant atteindre 50 points de pourcentage entre les meilleures et les pires performances pour une même tâche.

Quatre problèmes clés émergent

La recherche identifie quatre problèmes centraux des modèles IA dans les dialogues multi-tours :

  • Conclusion anticipée : Faire des jugements précipités avant d’avoir toutes les informations nécessaires.
  • Dépendance excessive au passé : Être trop confiant dans ses réponses précédentes, même si certaines contiennent des erreurs.
  • Ignorance d’informations importantes : Omettre des informations cruciales au cours de la discussion.
  • Précision excessive : Donner des réponses trop détaillées, entraînant une mauvaise hypothèse sur les lacunes d’information.

Les optimisations techniques n’ont que peu d’impact

Pour améliorer la fiabilité, l’équipe de recherche a essayé diverses améliorations techniques, y compris la diminution de la température du modèle pour réduire l’aléatoire et demander à l’IA de répéter les instructions de l’utilisateur. Cependant, ces mesures d’optimisation n’ont produit aucun effet notable.

La recherche a également constaté que modifier le degré de détail fourni à chaque étape ne fait aucune différence. La seule solution fiable consiste à fournir dès le début toutes les informations nécessaires.

QQ20250529-092051.png

Les modèles de langage grand public ont tendance à “se perdre” dans des dialogues multi-étapes non spécifiés, entraînant une baisse significative de la performance.

Séparation entre compétence et fiabilité

La baisse de performance se manifeste sur deux plans : la compétence de base des modèles chute d’environ 16 %, tandis que l’instabilité augmente de 112 %. Dans les tâches mono-tours, les modèles plus performants sont généralement plus fiables, mais dans les dialogues multi-tours, tous les modèles sont tout aussi instables, indépendamment de leur niveau de compétence de base.

Stratégies pratiques d’adaptation

Basée sur les résultats de l’étude, les experts proposent deux recommandations pratiques :

Pour les utilisateurs : Lorsqu’un dialogue s’éloigne du sujet, il vaut mieux recommencer une nouvelle conversation plutôt que de tenter de corriger. À la fin du dialogue, demandez à l’IA de résumer toutes les demandes et utilisez cela comme point de départ pour une nouvelle discussion.

Pour les développeurs : Il faut accorder une attention accrue au développement de la fiabilité des dialogues multi-tours. Les futurs modèles doivent maintenir une performance stable même lorsque les instructions sont incomplètes, sans compter sur des astuces spécifiques ou ajustements paramétriques.

Influence sur l’industrie et perspectives

Cette étude met en lumière les défis majeurs auxquels font face les assistants IA dans leur utilisation réelle. Comme les utilisateurs expriment généralement leurs besoins par des dialogues progressifs, les problèmes de fiabilité peuvent sérieusement compromettre l’expérience utilisateur et la valeur réelle des systèmes IA.

Les chercheurs insistent sur l’importance de la fiabilité, tout aussi essentielle que les performances initiales, surtout pour les assistants IA capables de gérer des interactions complexes et multi-étapes dans le monde réel. Cette découverte indique une direction importante pour les améliorations futures de l’industrie IA.