GRIN-MoE est un modèle d'experts mixtes (Mixture of Experts, MoE) développé par Microsoft, axé sur l'amélioration des performances des modèles dans les environnements à ressources limitées. Ce modèle utilise SparseMixer-v2 pour estimer le gradient du routage des experts. Comparé aux méthodes d'entraînement MoE traditionnelles, GRIN-MoE permet une extension de l'entraînement du modèle sans recourir au traitement parallèle des experts ni à l'abandon de jetons. Il excelle dans les tâches de codage et de mathématiques, et convient aux scénarios nécessitant une forte capacité de raisonnement.