AMD聯合IBM與Zyphra推出全球首個全AMD硬件訓練的MoE模型ZAYA1,預訓練14萬億token,性能媲美Qwen3系列,數學推理接近專業版。採用128節點×8張MI300X顯卡集羣,算力達750PFLOPs。創新CCA注意力機制融合卷積與壓縮嵌入,數據採用課程學習從通用到專業領域過渡。後續將發佈優化版本。