Skywork-MoEは、146億パラメーターを持つ高性能な混合専門家(MoE)モデルです。16のエキスパートと22億の活性化パラメーターを備えています。このモデルは、Skywork-13Bモデルの密集型チェックポイントから初期化されています。2つの革新的な技術、ゲート付きロジック正規化(専門家の多様性を強化)と適応型補助損失係数(層固有の補助損失係数の調整を可能にする)が導入されています。Skywork-MoEは、C-Eval、MMLU、CMMLU、GSM8K、MATH、HumanEvalなどの様々な一般的なベンチマークテストにおいて、パラメーター数が多いモデルや活性化パラメーター数が多いモデルと同等かそれ以上の性能を示しています。