DeepSeek開源周第3天:發佈DeepGEMM,FP8 GEMM庫助力AI訓練與推理
中國人工智能公司DeepSeek在其“開源周”第3天宣佈推出DeepGEMM——一款支持FP8通用矩陣乘法(GEMM)的開源庫。這一工具專爲密集型和混合專家(MoE)矩陣運算設計,爲DeepSeek V3和R1模型的訓練與推理提供強大支持。官方消息通過X平臺發佈,迅速引發技術社區的熱烈反響。據DeepSeek官方賬號發佈的帖子,DeepGEMM在NVIDIA Hopper GPU上可實現高達1350+ TFLOPS的FP8計算性能。其核心邏輯僅約300行代碼,卻能在大多數矩陣尺寸上超越專家調優的內核,展現了極高的效率和簡潔性。該庫無需複雜依賴,採用即時編