字節跳動豆包UltraMem架構將大模型推理成本降低83%
字節跳動豆包大模型團隊今日宣佈,成功研發出全新稀疏模型架構UltraMem,該架構有效解決了MoE(混合專家)模型推理時的高額訪存問題,推理速度較MoE提升2-6倍,推理成本最高可降低83%。這一突破性進展爲大模型的高效推理開闢了新路徑。UltraMem架構在保證模型效果的前提下,成功解決了MoE架構推理時的訪存瓶頸。實驗結果表明,在參數和激活條件相同的情況下,UltraMem不僅模型效果優於MoE,更將推理速度提升了2-6倍。此外,在常見batch size規模下,UltraMem的訪存成本幾乎與同計算量的Dense