Skywork-MoE-Baseは、1460億パラメーターを持つ高性能混合エキスパート(MoE)モデルです。16個のエキスパートで構成され、220億パラメーターが活性化されます。このモデルは、Skywork-13Bモデルの密集型チェックポイントから初期化され、2つの革新的な技術を導入しています。1つは、ゲート制御ロジックによる正規化でエキスパートの多様性を強化する技術、もう1つは、層ごとに補助損失係数を調整できる適応型補助損失係数です。Skywork-MoEは、様々な一般的なベンチマークテストにおいて、パラメーター数または活性化パラメーター数の多いモデルと同等か、それ以上の性能を示しています。