L'équipe de recherche derrière « Décodeur » a développé AgentBench, un benchmark conçu pour mesurer les capacités des grands modèles de langage (LLM) dans des tâches d'assistance. Après avoir testé 25 modèles de langage, ils ont constaté que GPT-4 présentait les meilleures performances globales et dans tous les domaines évalués.
L'équipe a également mis à disposition un ensemble d'outils, un jeu de données et un environnement de benchmark pour la communauté de recherche. Les résultats de cette étude sont précieux pour évaluer plus avant les performances d'autres modèles, qu'ils soient commerciaux ou open source.




