Le 6 juin, FaceWall Intelligence a officiellement lancé sa dernière œuvre majeure : la série de modèles MiniCPM4.0, qui est surnommée "le plus imaginatif des 'petits canons' de tous les temps". Cette série non seulement a accompli une avancée fulgurante en termes de performances côté terminal, mais a également fixé un nouveau standard en matière d'innovation technologique.
La série MiniCPM4.0 comprend deux produits phares : l'un est une version flash de 8B avec une architecture creuse innovante qui a déclenché une tempête d'efficacité ; l'autre est une version extrêmement légère de seulement 0.5B, appelée "le plus puissant petit canon". Ces deux modèles montrent des performances exceptionnelles en termes de vitesse, d'efficacité, de performance et d'applications pratiques.
En termes de vitesse, MiniCPM4.0 a atteint une amélioration de 220 fois dans des situations limites et de 5 fois en situation normale. Cette percée est due à des innovations systémiques de type creux qui accélèrent chaque étape. Grâce à une technique de double changement de rythme efficace, le modèle peut automatiquement basculer entre les mécanismes d'attention creuse et dense selon la longueur du texte, garantissant un traitement rapide et efficace des textes longs tout en réduisant considérablement la demande de stockage côté terminal. Comparé au modèle concurrent Qwen3-8B, il nécessite uniquement un quart de l'espace de stockage de cache.
Sur le plan de l'efficacité, MiniCPM4.0 a apporté des innovations efficaces systémiques de type creux entièrement open source, permettant d'atteindre une accélération maximale avec une densité creuse extrêmement élevée de 5 %. En intégrant des technologies innovantes自主développées, elle optimise à tous les niveaux, allant de l'architecture à la couche logicielle et matérielle, pour assurer une mise en œuvre efficace à tous les niveaux.
En ce qui concerne les performances, MiniCPM4.0 continue de suivre la tradition "de petite taille mais de grande force". La version de 0.5B atteint des résultats équivalents à ceux d'un modèle avec deux fois plus de paramètres, avec seulement 2,7 % des coûts d'entraînement ; tandis que la version creuse de 8B dépasse Qwen3 et Gemma312B avec 22 % des coûts d'entraînement, consolidant ainsi son leadership dans le domaine des terminaux.
En termes d'applications pratiques, MiniCPM4.0 montre une puissance impressionnante. En combinant un cadre de raisonnement rapide sur terminaux auto-conçu CPM.cu, des innovations telles que l'échantillonnage spéculatif, la compression et la quantification des modèles, ainsi que des innovations dans les cadres de déploiement sur terminaux, il est possible de réduire la taille du modèle de 90 % tout en maximisant les performances, garantissant une expérience fluide depuis le début jusqu'à la fin.
Actuellement, ce modèle s'est bien adapté aux principaux puces telles que Intel, Qualcomm, MTK et Huawei Ascend, et a été déployé sur plusieurs frameworks open source, élargissant ainsi son potentiel d'application.
Collection de modèles :
https://www.modelscope.cn/collections/MiniCPM-4-ec015560e8c84d
GitHub :
https://github.com/openbmb/minicpm