O GRIN-MoE é um modelo de especialista misto (Mixture of Experts, MoE) desenvolvido pela Microsoft, focado em melhorar o desempenho do modelo em ambientes com recursos limitados. O modelo utiliza o SparseMixer-v2 para estimar o gradiente do roteamento de especialistas, permitindo a escalabilidade do treinamento do modelo sem depender do processamento paralelo de especialistas e descarte de tokens, ao contrário dos métodos tradicionais de treinamento MoE. Ele se destaca em tarefas de codificação e matemática, sendo adequado para cenários que exigem forte capacidade de raciocínio.