Récemment, la famille de modèles ERNIE de Baidu a connu une mise à niveau majeure : le modèle ERNIE-4.5-21B-A3B-Thinking a été officiellement ouvert au public et s'est rapidement positionné en tête du classement des modèles de génération de texte sur la plateforme Hugging Face, tout en se classant troisième dans le classement global des modèles. Ce modèle léger basé sur l'architecture Mixture-of-Experts (MoE) a attiré l'attention de l'industrie grâce à ses capacités exceptionnelles de raisonnement et à son efficacité en termes de paramètres, marquant ainsi un autre jalon dans l'écosystème d'IA open source chinois.

Spécifications principales et conception innovante du modèle

ERNIE-4.5-21B-A3B-Thinking utilise une architecture MoE avancée. Le nombre total de paramètres est de 21 milliards, mais seulement 3 milliards de paramètres sont activés par token. Cette mécanique d'activation rare réduit significativement les coûts de calcul tout en maintenant une sortie performante. Le modèle prend en charge une fenêtre contextuelle longue de 128 000 tokens, ce qui le rend particulièrement adapté pour traiter des tâches complexes avec des textes longs, comme le raisonnement logique, la résolution mathématique et l'analyse académique.

image.png

Au contraire des modèles dominants qui reposent sur le framework PyTorch, la série ERNIE-4.5 a été entraînée et optimisée sur le framework PaddlePaddle, développé par Baidu. Ce design basé sur un framework autonome non seulement améliore la compatibilité du modèle pour les tâches multimodales, mais assure également une adaptation efficace aux matériels. À l'heure actuelle, seules deux entreprises dans le monde utilisent un framework autonome pour entraîner des grands modèles : Baidu et Google, ce qui souligne leur autonomie technologique et leur profondeur d'innovation.

Performances : une inférence efficace qui défie les géants de l'industrie

Selon les derniers tests de référence, le modèle s'est montré excellent dans les tâches telles que le raisonnement logique, les mathématiques, les sciences, le codage et la génération de texte, atteignant même certains indicateurs proches ou supérieurs à ceux des modèles Gemini 2.5 Pro et GPT-5. Bien que le nombre total de paramètres ne soit que de 21 milliards (environ 70 % de Qwen3-30B), ses performances sur les benchmarks de raisonnement mathématique comme BBH et CMATH dépassent déjà celles de la concurrence, illustrant une très haute efficacité des paramètres.

De plus, le modèle dispose d'une fonctionnalité d'appel d'outils efficace, permettant des appels de fonctions structurés et l'intégration d'API externes. Il convient aux scénarios tels que la synthèse de programmes, le raisonnement symbolique et les workflows multi-agents. En matière de compréhension du contexte long, après une formation spécifique, il peut gérer efficacement des informations massives et générer du contenu synthétique de niveau académique, réduisant ainsi significativement le problème des illusions. Le modèle prend également en charge l'optimisation en deux langues (chinois et anglais), ce qui le rend adapté aux développeurs et entreprises du monde entier.

Les retours de la communauté open source indiquent que le téléchargement et l'indice de tendance de ce modèle ont explosé sur Hugging Face, le rendant une option populaire dans le domaine de la génération de texte. Les développeurs peuvent facilement l'intégrer via des outils tels que vLLM, Transformers 4.54+ et FastDeploy, pour l'installer localement ou effectuer des inférences en ligne.

Signification de l'ouverture : favoriser la démocratisation de l'IA et la construction d'un écosystème

ERNIE-4.5-21B-A3B-Thinking est publié sous licence Apache 2.0 et permet l'utilisation commerciale, ce qui réduit davantage les barrières à l'accès aux technologies de l'IA. Après avoir ouvert au public les autres 10 modèles de la famille ERNIE 4.5 en juin, cette publication renforce sa position de leader dans le domaine de l'IA open source. Actuellement, de nombreux modèles en tête de la plateforme Hugging Face proviennent de résultats chinois, ce qui reflète la compétitivité mondiale de la Chine en matière d'architecture MoE et d'optimisation du raisonnement.

En tant que nouvelle itération du modèle ERNIE, ce modèle améliore non seulement la capacité à suivre les instructions et à gérer les tâches à connaissance dense, mais renforce également sa « pensée » par le biais d'une apprentissage renforcé en plusieurs étapes. Dans les tâches visuelles-langagières, sa variante VL s'est également montrée excellente, réduisant les écarts avec les modèles OpenAI-o1 sur des benchmarks tels que MathVista et MMMU.

Impact industriel et perspectives futures