AMD联合IBM与Zyphra推出全球首个全AMD硬件训练的MoE模型ZAYA1,预训练14万亿token,性能媲美Qwen3系列,数学推理接近专业版。采用128节点×8张MI300X显卡集群,算力达750PFLOPs。创新CCA注意力机制融合卷积与压缩嵌入,数据采用课程学习从通用到专业领域过渡。后续将发布优化版本。