Moonlight-16B-A3Bは、Muon最適化器を用いてトレーニングされた160億パラメータの混合専門家モデルであり、効率的な言語生成を目的としています。
Moonlightは、Muon最適化器を用いて訓練された160億パラメータの混合専門家モデルで、優れた性能を誇ります。
お気に入りの画家や美術運動のスタイルで絵画をAI生成
Jackmin108
Moonlightは、Muonオプティマイザーを用いて訓練された、総パラメータ16B、活性化パラメータ3Bのハイブリッドエキスパート(MoE)モデルで、5.7Tのトークンを使って訓練されました。このモデルは現在のパレートフロンティアを改善し、より少ない訓練FLOPでより良い性能を実現し、複数のベンチマークテストで優れた結果を示しています。