Récemment, Qafind Labs a publié son dernier modèle, ChatDLM, une innovation qui a suscité un vif intérêt dans le domaine de l'intelligence artificielle. ChatDLM est le premier modèle à intégrer profondément la « diffusion par blocs (Block Diffusion) » et le « mélange d'experts (MoE) ». Il atteint une vitesse d'inférence incroyable de 2 800 tokens/s sur GPU, prenant en charge une fenêtre de contexte extrêmement large de 131 072 tokens, ouvrant ainsi une nouvelle ère pour la génération de documents et les conversations en temps réel.

微信截图_20250428082020.png

Le principal atout de ChatDLM réside dans son architecture technique unique. Ce modèle, doté de 7 milliards de paramètres, utilise la technique de diffusion par blocs pour regrouper les entrées par blocs, combinant la diffusion spatiale et un mécanisme d'attention inter-blocs, ce qui améliore considérablement la vitesse de traitement. Simultanément, ChatDLM intègre la technique du mélange d'experts (MoE), configurant 32 à 64 experts et sélectionnant 2 experts à chaque traitement. Ce mécanisme flexible optimise encore les performances du modèle.

Pour prendre en charge un contexte extrêmement large, ChatDLM utilise l'optimisation RoPE et une technique de cache hiérarchique, renforçant considérablement la capacité de mémoire du modèle. En termes d'optimisation de l'inférence, ChatDLM, grâce à l'arrêt précoce dynamique, à la précision mixte BF16 et au partitionnement ZeRO, permet une extension aisée sur plusieurs GPU, améliorant ainsi l'efficacité et l'extensibilité du modèle.

Lors des tests de performance, ChatDLM a démontré d'excellents résultats sur les GPU A100, atteignant un débit de 2 800 tokens/s, avec une longueur de contexte de 131 072 tokens et un nombre moyen d'itérations compris entre 12 et 25. Dans les tests HumanEval (0-shot), ChatDLM a atteint une précision de 92,0 %, de 84,2 % dans les tests Fill-in-the-Middle et de 83,9 % dans les tests ARC-E (0-shot). Ces données témoignent de ses performances exceptionnelles.

À l'avenir, Qafind Labs prévoit d'intégrer à ChatDLM des technologies plus avancées, notamment l'itération adaptative (Adaptive Iteration), l'intégration de l'attention graphique (Graph-Attention) et la diffusion multimodale (Multimodal Diffusion), afin d'améliorer encore la précision et la portée du modèle.

Adresse d'essai : https://www.chatdlm.cn