Llama3天瘦成Mamba!推理速度提升1.5倍
Mamba 团队的研究成果集中于将大型 Transformer 模型 Llama “蒸馏”为 Mamba,通过设计新型推理解码算法,显著提高了推理速度。研究目标旨在利用 Llama 的丰富知识,同时降低从零开始训练大型模型的高成本。研究团队结合了渐进式蒸馏、监督微调和定向偏好优化等方法,将 Zephyr-7B 和 Llama-38B 成功转换为线性 RNN 模型,性能与原始模型相当。关键创新在于为 Mamba 设计的全新算法,结合硬件特性实现基于 Mamba 的推测解码,实现速度与性能的双重提升。研究中,通过逐步替换注意力层、应用监督微调和用户偏好优化,以及引入推测解码算法,研究人员在保持模型性能的同时,实现了高达1.5倍的推理加速。整个过程在8卡80G A100上运行3到4天,展现了高效的训练效率。这项研究为未来模型的推理速度和性能提升提供了新思路。