Récemment, l'Institut de la technologie de l'information et des communications de Chine (CAICT) a officiellement lancé le système d'évaluation « Fangsheng » version 3.0, marquant une autre avancée majeure dans l'évaluation des technologies de l'intelligence artificielle (IA) en Chine. Cette nouvelle version est une amélioration globale par rapport aux versions précédentes, ajoutant non seulement des tests sur les propriétés fondamentales des modèles, mais aussi une évaluation systématique des caractéristiques de base telles que la taille des paramètres et l'efficacité de la réflexion. De plus, ce système intègre des tests avancés pour l'avenir, se concentrant sur dix compétences supérieures telles que la compréhension multimodale, la mémoire à long terme et l'apprentissage autonome, offrant ainsi une évaluation plus approfondie pour des secteurs clés tels que la fabrication industrielle, les sciences fondamentales et la finance.
Pour mieux mettre en œuvre la version 3.0 de « Fangsheng », le CAICT renforce la construction des infrastructures d'évaluation dans plusieurs domaines. Premièrement, il prévoit d'élargir les ressources de données de test de haute qualité, ajoutant 3 millions de nouvelles données pour répondre aux besoins d'évaluation des modèles dans différentes langues, tâches et scénarios. Ensuite, le CAICT étudiera et appliquera des méthodes de test avancées de manière systématique, en se concentrant sur la résolution de problèmes techniques clés liés aux grands modèles, tels que la synthèse et l'évaluation de la qualité des données de test de haute qualité. En outre, le CAICT construira une plateforme d'évaluation intelligente de nouvelle génération, ajoutant un environnement de simulation de test avec une interaction multientités et une perception de l'environnement, afin de répondre aux besoins d'évaluation de l'interaction collaborative entre entités intelligentes et de l'adaptation dynamique à l'environnement complexe.
Dès 2024, le CAICT organisera une activité de test de référence pour les grands modèles toutes les deux mois. Dans la dernière série de tests, 141 grands modèles et 7 entités intelligentes ont été évalués, couvrant les compétences fondamentales, la capacité de raisonnement, l'application du code et la compréhension multimodale. Les résultats montrent que GPT-5 d'OpenAI continue de dominer en termes de compétence globale, tandis que Qwen3-Max-Preview d'Alibaba et Kimi K2 de Moonshot AI ont également démontré des performances solides. Dans les tests des modèles multimodaux, la capacité de compréhension visuelle a connu des progrès, mais reste insuffisante dans les tâches complexes de raisonnement logique.
Les résultats des tests concernant la capacité d'application du code montrent également que, bien qu'ils soient performants dans les tâches simples au niveau des fonctions, ils présentent encore des lacunes dans les développements de projets réels. Cela signifie que la concurrence technologique entre le monde extérieur et la Chine reste intense, et que les entités intelligentes doivent encore progresser dans la compréhension multimodale et le traitement d'informations complexes.
Le CAICT continuera à renforcer la recherche et le développement des technologies d'évaluation des grands modèles, améliorant ainsi la crédibilité et l'autorité des évaluations, afin de soutenir l'innovation aux frontières de l'intelligence artificielle et le développement de l'industrie moderne.