Llama 3.1トレーニングの頻繁な障害:16000枚のH100が3時間ごとに1回障害発生 GPUとHBM3メモリが鍵!
Meta社は最新のAIモデルLlama3.1のトレーニングに16384枚のGPUを使用し、AI技術の驚異的な発展速度を示しました。しかし、この過程で平均3時間ごとに1回の障害が発生し、合計419回の障害が発生しました。その約半分はH100 GPUとそのHBM3メモリに関連しています。このデータは、性能向上を目指す超算システムが直面する信頼性の課題を明らかにしています。Llama3.1トレーニングクラスタの複雑さは、小型都市ニューラルネットワークに匹敵し、障害が頻発しています。Metaチームは、障害を軽減するための戦略(例:〜省略〜)を採用しました。