Récemment, Huawei a présenté une avancée impressionnante via son nouveau système « Ascend + Pangu Ultra MoE » : un grand modèle MoE avec presque un trillion de paramètres peut comprendre et répondre à un problème de mathématiques supérieures en seulement 2 secondes, tout cela sans utiliser de GPU. Cela démontre la capacité puissante de Huawei en matière de calcul national autonome et d'entraînement de modèles.

D’un point de vue technique, l'équipe de Huawei a réussi à améliorer les performances globales du système de formation en adoptant des stratégies de parallélisation intelligentes et en optimisant la communication et le calcul. Dans leur rapport technique, Huawei a détaillé plusieurs innovations réalisées sur le super nœud CloudMatrix384, y compris des mécanismes de communication améliorés et des stratégies d’équilibrage de charge. Ces innovations ont réduit presque à néant les coûts de communication parallèle pour l’entraînement des grands modèles MoE, tout en équilibrant efficacement la charge de calcul.

image.png

De plus, Huawei a accompli des progrès significatifs dans l'amélioration de la puissance de calcul par nœud. En optimisant l'exécution des opérateurs de formation, ils ont réussi à doubler la taille des micro-lots tout en résolvant efficacement le problème d'efficacité de la distribution des opérateurs. Ces avancées techniques signifient que le système de Huawei peut utiliser les ressources existantes de manière plus efficace lorsqu'il est confronté à des tâches de calcul complexes.

Cette série d'innovations technologiques de Huawei a non seulement considérablement augmenté l'efficacité de l'entraînement des modèles MoE, mais elle ouvre également de nouvelles perspectives pour l'entraînement et l'application des grands modèles IA à l'avenir.