近日,德国知名技术咨询公司 TNG 发布了 DeepSeek 的增强版 ——DeepSeek-TNG-R1T2-Chimera,标志着深度学习模型在推理效率和性能上的又一次重大突破。这一新版本不仅在推理效率上提升了200%,而且通过创新的 AoE 架构显著降低了推理成本。

创新的 AoE 架构

Chimera 版本是基于 DeepSeek 的 R1-0528、R1和 V3-0324三大模型的混合开发,采用了全新的 AoE(Adaptive Expert)架构。这一架构通过对混合专家(MoE)架构的细致优化,能够高效地利用模型参数,从而提升推理性能并节省 token 输出。

在多项主流测试基准(如 MTBench、AIME-2024)中,Chimera 版本的表现优于普通 R1版本,展现出显著的推理能力和经济性。

image.png

MoE 架构的优势

在深入了解 AoE 架构之前,我们需要了解混合专家(MoE)架构。MoE 架构将 Transformer 的前馈层划分为多个 “专家”,每个输入标记仅会路由到部分专家。这种方法有效提高了模型的效率和性能。

例如,2023年 Mistral 推出的 Mixtral-8x7B 模型,尽管激活的参数数量仅为13亿,却能够与拥有700亿参数的 LLaMA-2-70B 模型相媲美,推理效率提高了6倍。

AoE 架构利用 MoE 的细粒度特性,允许研究者从现有的混合专家模型中构建具有特定能力的子模型。通过插值和选择性合并父模型的权重张量,生成的新模型不仅保留了优良特性,还能够根据实际需求灵活调整其性能表现。

研究者选择了 DeepSeek-V3-0324和 DeepSeek-R1作为父模型,基于不同的微调技术,使得这两个模型在推理能力和指令遵循方面都表现卓越。

权重合并与优化

在构建新的子模型过程中,研究者首先需要准备父模型的权重张量,并通过解析权重文件进行直接操作。接着,通过定义权重系数,研究者可以平滑地插值和合并父模型的特征,生成新的模型变体。

在合并过程中,研究者引入了阈值控制与差异筛选机制,确保只有在显著差异的情况下,才将相关张量纳入合并范围,从而减少模型复杂性和计算成本。

在 MoE 架构中,路由专家张量是至关重要的组成部分,它决定了输入标记在推理过程中选择的专家模块。AoE 方法特别关注这些张量的合并,研究者发现,通过优化路由专家张量,可以显著提升子模型的推理能力。

最终,通过 PyTorch 框架,研究者实现了模型的合并。合并后的权重被保存到新的权重文件中,生成了新的子模型,展现出高效性和灵活性。

image.png

开源地址: https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera