Une étude récente, menée par l'Institut autrichien des sciences complexes (CSH), révèle que les grands modèles de langage (LLM) – malgré leurs performances exceptionnelles dans de nombreuses tâches – présentent des lacunes lorsqu'il s'agit de questions d'histoire complexes. L'équipe de recherche a testé trois modèles de pointe : GPT-4 d'OpenAI, Llama de Meta et Gemini de Google, avec des résultats décevants.

Compétition de robots : questions-réponses mathématiques

Source : Image générée par IA, fournie par Midjourney.

Pour évaluer les connaissances historiques de ces modèles, les chercheurs ont développé un outil de référence appelé « Hist-LLM ». Basé sur la base de données historiques mondiales Seshat, cet outil vise à vérifier l'exactitude des réponses des IA aux questions historiques. Les résultats de l'étude, publiés lors de la conférence NeurIPS sur l'intelligence artificielle, montrent que le modèle le plus performant, GPT-4Turbo, n'a atteint qu'un taux de précision de 46 %. Ce résultat est à peine supérieur à une réponse aléatoire.

Maria del Rio-Chanona, professeure adjointe en informatique à l'University College de Londres, explique : « Bien que les grands modèles de langage soient impressionnants, leur compréhension approfondie des connaissances historiques complexes reste insuffisante. Ils excellent dans le traitement de faits simples, mais se révèlent impuissants face à des questions historiques plus complexes. » Par exemple, lorsqu'on lui a demandé si des armures en écailles existaient à une période spécifique de l'Égypte antique, GPT-4Turbo a répondu à tort « oui », alors que cette technologie n'est apparue que 1500 ans plus tard. De même, lorsqu'on lui a demandé si l'Égypte antique possédait une armée professionnelle permanente, GPT-4 a également répondu incorrectement « oui », alors que la réponse correcte est non.

L'étude révèle également que les modèles obtiennent de moins bons résultats pour certaines régions spécifiques (comme l'Afrique subsaharienne), ce qui suggère un biais potentiel dans les données d'entraînement. Peter Turchin, responsable de la recherche, souligne que ces résultats montrent que, dans certains domaines, les LLM ne peuvent toujours pas remplacer les humains.

Points clés :

- 📉 Le taux de précision de GPT-4Turbo lors d'un test d'histoire avancé n'est que de 46 %, une performance médiocre.

- 📚 L'étude montre que les grands modèles de langage ont encore des lacunes dans la compréhension des connaissances historiques complexes.

- 🌍 L'équipe de recherche espère améliorer l'outil de test afin d'accroître le potentiel d'application des modèles dans la recherche historique.