C-Eval : Évaluation des capacités de connaissance et de raisonnement de niveau avancé des modèles linguistiques de base chinois

机器之心

Publié leActualités IA · 1 minutes de lecture · Oct 8, 2023

119

C-Eval : Un Benchmark Complet

C-Eval est une vaste référence pour évaluer les capacités de raisonnement et les connaissances avancées des grands modèles linguistiques chinois. Il comprend des questions à choix multiples à quatre niveaux de difficulté, couvrant 52 domaines disciplinaires différents. Les exemples de tests proviennent de simulations d'examens trouvées sur internet. Le classement C-Eval présente les performances des modèles open source sur ce benchmark. Ce référentiel aide à sélectionner les grands modèles adaptés au traitement du langage naturel et favorise le développement des applications d'IA.

grands modèles linguistiques chinois C-Eval raisonnement basé sur les connaissances

Cet article provient d'AIbase Daily

Bienvenue dans la section [AI Quotidien] ! Voici votre guide pour explorer le monde de l'intelligence artificielle chaque jour. Chaque jour, nous vous présentons les points forts du domaine de l'IA, en mettant l'accent sur les développeurs, en vous aidant à comprendre les tendances technologiques et à découvrir des applications de produits IA innovantes.

—— Créé par le groupe AIbase Daily

Recommandations d'actualités IA connexes

L'idée Automobile obtient les premières certifications de sécurité des technologies d'IA générative pour les véhicules

L'idée Automobile a reçu lors du Forum Chinois des Véhicules en 2025 les premières certifications nationales doubles de sécurité des contenus générés par l'IA automobile, devenant ainsi le premier constructeur à passer les normes nationales GB/T45654 et GB45438-2025. Ces certifications ont été délivrées conjointement par le comité de cybersécurité automobile de la Chambre chinoise de l'industrie automobile (CCIA) et la plateforme de repérage des contenus générés par l'IA. Elles couvrent les domaines de la sécurité des contenus et de l'identification. Cette réalisation marque le leadership d'L'idée Automobile dans le domaine de la sécurité des technologies AIGC embarquées, établit un modèle pour le développement sécurisé des véhicules intelligents et renforce la confiance des consommateurs.

Jul 18, 2025

Perplexity s'engage en Inde : une nouvelle stratégie pour se rapprocher d'OpenAI sur la piste de l'intelligence artificielle

Perplexity s'allie avec Bharti Airtel en Inde, offrant 360M d'utilisateurs un an de service Pro gratuit. Croissance de 600% des téléchargements, stratégie de localisation pour conquérir le marché.....

Jul 18, 2025

Le processeur Dojo 2 de Tesla va entrer en production en série, sa performance approche celle d'NVIDIA, et Musk déclare qu'il va changer les règles du jeu

Tesla a présenté son nouveau processeur Dojo 2, dont les performances sont 10 fois supérieures à celles du premier modèle, avec une puissance de calcul proche de celle du B200 d'NVIDIA. Ce processeur est fabriqué par TSMC et utilise des technologies d'emballage avancées pour résoudre des problèmes tels que la consommation d'énergie. Le Dojo 2 aidera le système de conduite autonome FSD de Tesla à s'entraîner, en traitant 16 milliards de cadres vidéo par jour, permettant ainsi une autonomie technologique. Musk a révélé qu'il sortira le prochain année un Dojo 3 encore plus puissant, et il a fait une blague en disant que le Dojo 2 pourrait faire fonctionner « Crysis » à dix milliards de cadres par seconde. Cette percée réduira la dépendance de Tesla envers NVIDIA et pourrait être commercialisée extérieurement.

Jul 18, 2025

Les utilisateurs avancés de Claude Code rencontrent des restrictions d'utilisation inattendues, la réponse d'Anthropic est vague

Claude Code impose des limites inattendues aux abonnés payants, causant une crise de confiance. Les utilisateurs dénoncent le manque de transparence et les perturbations de projet.....

Jul 18, 2025

Mistral lance une nouvelle fonctionnalité, le chatbot Le Chat s'améliore encore davantage pour soutenir les entreprises et les particuliers dans leurs recherches !

Mistral améliore son chatbot Le Chat avec : 1) Mode recherche approfondie, 2) Sécurité renforcée pour entreprises, 3) Meilleure capacité multilingue. Devenant un concurrent sérieux d'OpenAI.....

Jul 18, 2025

Le premier logiciel malveillant basé sur l'IA LameHug apparaît et vole des données des appareils Windows

Le nouveau logiciel malveillant LameHug utilise le modèle Qwen2.5 d'Ali pour attaquer les systèmes Windows, se propage par pièces jointes de courriels et peut générer dynamiquement des ordres de vol de données. Le logiciel collecte des informations système et vole des fichiers sensibles, plusieurs variantes ont déjà été observées. Les experts avertissent que c'est le premier logiciel malveillant à IA publié publiquement et recommandent aux utilisateurs d'être vigilants et de mettre à jour leurs mesures de protection.

Jul 18, 2025

Le classement Aider annonce les résultats des tests, la capacité de programmation de Kimi K2 est comparable à celle de Qwen3-235B-A22B

Jul 18, 2025

Un taux d'erreur de 5,63 % qui bat tous les records : NVIDIA AI lance un modèle de reconnaissance vocale ultra-rapide de niveau commercial, Canary-Qwen-2.5B

Jul 18, 2025

Le framework ART est lancé ! Entraînez un agent IA en une seule touche avec Python, tout en trouvant des e-mails, en faisant des jeux et en contrôlant les jeux !

Jul 18, 2025

Le nombre de jeux d'IA sur la plateforme Steam augmente de 800 % : l'IA générative a pénétré le développement de jeux

Les jeux utilisant l'IA générative sur Steam ont augmenté de 800%, atteignant près de 8000 titres, soit 7% du catalogue. Cette croissance rapide transforme le développement de jeux.....

Jul 18, 2025

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

C-Eval : Évaluation des capacités de connaissance et de raisonnement de niveau avancé des modèles linguistiques de base chinois

机器之心

Cet article provient d'AIbase Daily

Recommandations d'actualités IA connexes

L'idée Automobile obtient les premières certifications de sécurité des technologies d'IA générative pour les véhicules

Perplexity s'engage en Inde : une nouvelle stratégie pour se rapprocher d'OpenAI sur la piste de l'intelligence artificielle

Le processeur Dojo 2 de Tesla va entrer en production en série, sa performance approche celle d'NVIDIA, et Musk déclare qu'il va changer les règles du jeu

Les utilisateurs avancés de Claude Code rencontrent des restrictions d'utilisation inattendues, la réponse d'Anthropic est vague

Mistral lance une nouvelle fonctionnalité, le chatbot Le Chat s'améliore encore davantage pour soutenir les entreprises et les particuliers dans leurs recherches !

Le premier logiciel malveillant basé sur l'IA LameHug apparaît et vole des données des appareils Windows

Le classement Aider annonce les résultats des tests, la capacité de programmation de Kimi K2 est comparable à celle de Qwen3-235B-A22B

Un taux d'erreur de 5,63 % qui bat tous les records : NVIDIA AI lance un modèle de reconnaissance vocale ultra-rapide de niveau commercial, Canary-Qwen-2.5B

Le framework ART est lancé ! Entraînez un agent IA en une seule touche avec Python, tout en trouvant des e-mails, en faisant des jeux et en contrôlant les jeux !

Le nombre de jeux d'IA sur la plateforme Steam augmente de 800 % : l'IA générative a pénétré le développement de jeux