Best 推测解码 AI Tools & Models - Premium 推测解码 News

AI News

谷歌Gemma4 推理速度狂飙 3 倍，离线大模型时代真的来了

谷歌近日为开源模型Gemma4推出多Token预测（MTP）起草器，利用推测解码架构将推理速度提升最高3倍，同时保持输出质量和逻辑能力。该模型发布后下载量迅速增长，成为全球最受关注的开源模型之一。

苹果与NVIDIA联手提升AI模型生产效率，速度提升近三倍

近日，苹果公司在机器学习领域的最新研究显示，他们通过与 NVIDIA 的合作，成功将大型语言模型（LLM）的生成速度提高了近三倍。这一进展的关键在于苹果开源的技术 “Recurrent Drafter”(ReDrafter)，它采用了一种推测解码方法，能够显著提升模型训练的效率。在过去，创建大型语言模型的过程通常非常耗时和耗资源，企业常常需要购买大量的硬件设备，进而增加了运营成本。2024年早些时候，苹果发布了 ReDrafter，这一技术结合了递归神经网络和动态树关注的方法，能够快速生成和验证标记，

13.5k 9 hours ago

Llama3天瘦成Mamba！推理速度提升1.5倍

Mamba 团队的研究成果集中于将大型 Transformer 模型 Llama “蒸馏”为 Mamba，通过设计新型推理解码算法，显著提高了推理速度。研究目标旨在利用 Llama 的丰富知识，同时降低从零开始训练大型模型的高成本。研究团队结合了渐进式蒸馏、监督微调和定向偏好优化等方法，将 Zephyr-7B 和 Llama-38B 成功转换为线性 RNN 模型，性能与原始模型相当。关键创新在于为 Mamba 设计的全新算法，结合硬件特性实现基于 Mamba 的推测解码，实现速度与性能的双重提升。研究中，通过逐步替换注意力层、应用监督微调和用户偏好优化，以及引入推测解码算法，研究人员在保持模型性能的同时，实现了高达1.5倍的推理加速。整个过程在8卡80G A100上运行3到4天，展现了高效的训练效率。这项研究为未来模型的推理速度和性能提升提供了新思路。

18.5k 1 days ago