GRIN-MoE ist ein von Microsoft entwickeltes Mixture-of-Experts-Modell (MoE), das sich auf die Verbesserung der Leistung von Modellen in ressourcenbeschränkten Umgebungen konzentriert. Das Modell schätzt die Gradienten der Experten-Routing mithilfe von SparseMixer-v2. Im Vergleich zu traditionellen MoE-Trainingsmethoden skaliert GRIN-MoE das Modelltraining, ohne auf parallele Expertenverarbeitung und Token-Discarding angewiesen zu sein. Es zeichnet sich insbesondere bei Codierungs- und Mathematikaufgaben aus und eignet sich für Szenarien, die starke Inferenzfähigkeiten erfordern.