ByteDance et l'Université de Pékin ont collaboré avec succès pour construire un cluster de plusieurs dizaines de milliers de cartes, intégrant le système MegaScale, et ont ainsi formé le modèle GPT-3 de grande envergure en 1,75 jour. Ce système a atteint un taux d'utilisation de la puissance de calcul de 55,2 %, surpassant ainsi le Megatron-LM de Nvidia. Pour améliorer l'efficacité et la stabilité, des améliorations ont été apportées aux algorithmes, au chevauchement des communications et à l'optimisation des opérateurs. ByteDance a actuellement mis en place un cluster GPU de plus de 10 000 cartes et est en train de construire un cluster à grande échelle basé sur l'architecture Hopper.
ByteDance déploie avec succès un cluster de plusieurs dizaines de milliers de cartes pour le système MegaScale, entraînant efficacement GPT-3

站长之家
Cet article provient d'AIbase Daily
Bienvenue dans la section [AI Quotidien] ! Voici votre guide pour explorer le monde de l'intelligence artificielle chaque jour. Chaque jour, nous vous présentons les points forts du domaine de l'IA, en mettant l'accent sur les développeurs, en vous aidant à comprendre les tendances technologiques et à découvrir des applications de produits IA innovantes.