C-Eval : Un Benchmark Complet

C-Eval est une vaste référence pour évaluer les capacités de raisonnement et les connaissances avancées des grands modèles linguistiques chinois. Il comprend des questions à choix multiples à quatre niveaux de difficulté, couvrant 52 domaines disciplinaires différents. Les exemples de tests proviennent de simulations d'examens trouvées sur internet. Le classement C-Eval présente les performances des modèles open source sur ce benchmark. Ce référentiel aide à sélectionner les grands modèles adaptés au traitement du langage naturel et favorise le développement des applications d'IA.