GRIN-MoEは、マイクロソフトが開発した混合専門家(Mixture of Experts, MoE)モデルであり、リソースが制限された環境下でのモデル性能向上に焦点を当てています。SparseMixer-v2を用いて専門家ルーティングの勾配を推定することで、従来のMoE訓練方法と比較して、専門家の並列処理やトークンの破棄に依存することなく、モデル訓練の拡張を実現しました。エンコーディングや数学的なタスクにおいて特に優れた性能を示し、強力な推論能力が求められるシナリオに適しています。