世界初の純AMDでトレーニングされたMoE大規模モデルZAYA1が発表:14Tトークン+CCAアテンション、性能はQwen3と同等
AMD、IBM、Zyphraが共同で、全AMDハードウェアで学習した初のMoEモデル「ZAYA1」を発表。14兆トークンを事前学習し、Qwen3シリーズに匹敵する性能で数学推論は専門版に近い。128ノード×8枚のMI300X(計1024GPU)クラスターを使用し、ピーク演算性能は750PFLOPs。カリキュラム学習で一般Webから専門領域へ段階的に学習。新たな畳み込み圧縮アテンション機構を採用。....