ByteDance et l'Université de Pékin ont collaboré avec succès pour construire un cluster de plusieurs dizaines de milliers de cartes, intégrant le système MegaScale, et ont ainsi formé le modèle GPT-3 de grande envergure en 1,75 jour. Ce système a atteint un taux d'utilisation de la puissance de calcul de 55,2 %, surpassant ainsi le Megatron-LM de Nvidia. Pour améliorer l'efficacité et la stabilité, des améliorations ont été apportées aux algorithmes, au chevauchement des communications et à l'optimisation des opérateurs. ByteDance a actuellement mis en place un cluster GPU de plus de 10 000 cartes et est en train de construire un cluster à grande échelle basé sur l'architecture Hopper.