DeepSeek-V3は、総パラメータ数6710億、活性化パラメータ数370億の強力なMixture-of-Experts(MoE)言語モデルです。DeepSeek-V2で実証済みのMulti-head Latent Attention(MLA)とDeepSeekMoEアーキテクチャを採用しています。さらに、DeepSeek-V3では、初めて補助損失なしの負荷均衡戦略を採用し、多トークン予測トレーニング目標を設定することで、より強力な性能を実現しました。DeepSeek-V3は14.8兆の高品質トークンで事前学習され、その後、教師あり微調整と強化学習段階を経て、その能力を最大限に活用しています。総合的な評価によると、DeepSeek-V3は他のオープンソースモデルを凌駕し、主要なクローズドソースモデルと同等の性能に達しています。優れた性能にもかかわらず、DeepSeek-V3の完全なトレーニングにはわずか2.788M H800 GPU時間しか必要なく、トレーニングプロセスは非常に安定しています。