華爲推新技術優化大模型推理:UCM 技術緩解 HBM 依賴
8月12日,華爲將在 2025金融AI推理應用落地與發展論壇 上發佈突破性 AI 推理創新技術 UCM(推理記憶數據管理器)。該技術有望降低中國 AI 推理對 HBM(高帶寬內存)的依賴,並顯著提升國內大模型推理性能。UCM 以 KV Cache 爲核心,融合多類型緩存加速算法工具,通過分級管理推理過程中產生的記憶數據,擴大上下文窗口,實現高吞吐、低時延的推理體驗,並降低每 Token 的推理成本。這一方案可緩解 HBM 資源不足帶來的任務卡頓與響應延遲問題。在此次論壇上,華爲將與中國銀聯共同發佈 AI