バイトダンスと北京大学、大規模GPT-3モデル訓練に成功

バイトダンスと北京大学は共同で、数万枚のGPUカードからなる大規模な計算クラスタを構築し、MegaScaleシステムを導入することで、わずか1.75日という短期間で巨大なGPT-3モデルの訓練を完了しました。

このシステムは55.2%という高い演算リソース利用率を実現し、NVIDIAのMegatron-LMを上回る成果を達成しました。効率性と安定性の向上のため、アルゴリズム、通信オーバーラップ、演算子最適化などの改良が施されました。

現在、バイトダンスは1万枚を超えるGPUカードからなるクラスタを運用しており、さらに大規模なHopperアーキテクチャクラスタの構築も進めています。