GRIN-MoE es un modelo de expertos mixtos (Mixture of Experts, MoE) desarrollado por Microsoft, enfocado en mejorar el rendimiento del modelo en entornos con recursos limitados. Este modelo utiliza SparseMixer-v2 para estimar el gradiente del enrutamiento de expertos, permitiendo la escalabilidad del entrenamiento del modelo sin depender del procesamiento paralelo de expertos ni del descarte de tokens, a diferencia de los métodos de entrenamiento MoE tradicionales. Destaca en tareas de codificación y matemáticas, siendo especialmente adecuado para escenarios que requieren una fuerte capacidad de razonamiento.