字节跳动和北大合作成功搭建了万卡集群,引入 MegaScale 系统,在 1.75 天内完成了规模庞大的 GPT-3 模型训练。该系统实现了 55.2% 的算力利用率,超越了英伟达 Megatron-LM。为了提高效率和稳定性,他们进行了算法、通信重叠、操作符优化等方面的改进。目前字节已经建立起超过 1 万张卡的 GPU 集群,并正在建设大规模 Hopper 架构集群。