Une étude récente, menée conjointement par l'Université de Munich, le Centre d'apprentissage automatique de Munich et Adobe Research, révèle une baisse significative des performances de 12 modèles de langage IA de pointe, dont GPT-4o, Gemini 1.5 Pro et Llama-3.3-70B, dans les tâches de raisonnement conceptuel sur de longs textes. Malgré leur capacité à traiter des contextes de 128 000 jetons au minimum, ces modèles présentent des limitations fondamentales en matière de liens logiques profonds.
L'équipe de recherche a développé NOLIMA (No Literal Matching), un système de test qui contourne intentionnellement les répétitions de mots clés pour mettre en évidence la fragilité des modèles IA dans la connexion conceptuelle. Par exemple, si le texte indique « Yuki habite près du Semperoper », le modèle doit comprendre que « le Semperoper est situé à Dresde » pour répondre à la question « Qui est allé à Dresde ».

Source : Image générée par IA, Midjourney
Les résultats des tests montrent :
1. Chute vertigineuse des performances sur les longs textes : lorsque le contexte passe de 2 000 à 8 000 jetons, les performances de la plupart des modèles chutent considérablement ; avec 32 000 jetons, 10 des 12 modèles affichent des performances deux fois inférieures à celles obtenues avec des textes courts.
2. Points faibles du mécanisme d'attention : les modèles ont du mal à localiser précisément les informations pertinentes dans les longs textes. La précision diminue encore lorsque la réponse clé se trouve dans la seconde moitié du texte.
3. Défauts persistants des modèles d'inférence spécialisés : les systèmes o1, o3-mini et DeepSeek-R1, conçus pour l'inférence complexe, obtiennent un score inférieur à 50 % au test NOLIMA-Hard avec 32 000 jetons, malgré des performances quasi parfaites sur les textes courts.
L'étude souligne que la dépendance excessive des modèles à la « correspondance de mots » est le problème central. Lorsque le test exclut intentionnellement les mêmes mots, même avec la technique d'invite « chaîne de pensée » (CoT), l'amélioration des capacités de traitement des longs textes de Llama-3.3-70B reste limitée. Plus grave encore, la présence de correspondances de mots dans un contexte non pertinent peut aggraver les erreurs du modèle.
« Cela révèle la contradiction fondamentale de l'IA actuelle : il est facile d'étendre la fenêtre contextuelle, mais difficile d'améliorer la capacité de raisonnement profond », soulignent les chercheurs. GPT-4o, par exemple, atteint une longueur de contexte effective de 8 000 jetons, mais reste insuffisant dans l'intégration conceptuelle entre les paragraphes. Avec l'allongement du texte, le mécanisme d'attention du modèle se « défocalise » progressivement, empêchant le maintien d'une chaîne logique cohérente.
Cette étude sonne le glas pour le développement de l'IA : la simple augmentation de la longueur de traitement ne permet pas de surmonter les obstacles du raisonnement. Le secteur doit repenser la conception de l'architecture des modèles et développer des mécanismes d'extraction et d'association d'informations plus efficaces. À l'avenir, la clé pour dépasser les limites du traitement des longs textes consistera à faire en sorte que l'IA comprenne réellement le texte et non pas se contente de s'appuyer sur la correspondance de motifs.





