Mistral CEO称中国DeepSeek-V3基于其架构,引发关于AI创新归属的争议。核心围绕稀疏混合专家模型技术是借鉴还是自主创新。
DeepSeek团队推出Engram模块,为稀疏大语言模型引入“条件记忆轴”,旨在解决传统Transformer处理重复知识时计算资源浪费的问题。该模块作为混合专家模型的补充,将N-gram嵌入技术融入模型,提升处理重复模式的效率。
YuanLab.ai发布开源多模态大模型Yuan3.0Flash,参数规模达40B,采用稀疏混合专家架构,推理时仅激活约3.7B参数,显著提升效率。模型提供16bit与4bit权重、技术报告及训练方法,支持二次开发和行业定制,推动AI技术普及。
Radical Numerics发布30B参数开源扩散语言模型RND1-Base,采用稀疏专家混合架构,仅激活3B参数。该模型具备并行生成优势,在基准测试表现优异,并公开完整权重与训练方案,推动扩散模型技术发展。
Alibaba
$4
输入tokens/百万
$16
输出tokens/百万
1k
上下文长度
$2
-
256
$0.75
64
Openai
$0.63
$3.15
131
$1
Chatglm
128
$8
32
Tencent
$0.5
224
$3
4
$6
$6.4
$2.4
$9.6
$1.5
$1.6
$12
28
Sensetime
$9
250
01-ai
$0.99
unsloth
Qwen3-Coder-REAP-363B-A35B是通过REAP方法对Qwen3-Coder-480B-A35B-Instruct进行25%专家剪枝得到的稀疏混合专家模型,在保持接近原模型性能的同时显著降低了参数规模和内存需求,特别适用于资源受限的代码生成和智能编码场景。
inclusionAI
Ming-flash-omni 预览版是基于 Ling-Flash-2.0 稀疏专家混合(MoE)架构构建的多模态大模型,总参数达100B,每个token仅激活6B参数。该模型在Ming-Omni基础上进行了全面升级,在多模态理解和生成方面有显著提升,特别是在语音识别、图像生成和分割编辑方面表现突出。
radicalnumerics
RND1是一个实验性的扩散语言模型,拥有300亿参数,采用稀疏专家混合架构。该模型从预训练的自回归基础模型转换而来,支持基于扩散的文本生成,每个标记仅激活30亿参数,在计算效率和模型容量之间取得平衡。
cpatonn
Qwen3-Next-80B-A3B-Instruct是通义千问团队开发的高效稀疏混合专家模型,总参数量80B,激活参数量仅3B。该模型采用创新的混合注意力机制和极低激活率的MoE架构,在保持强大性能的同时大幅提升推理效率,原生支持262K上下文长度并可扩展至1M令牌。
Qwen3-Next-80B-A3B-Instruct是阿里巴巴通义千问团队开发的最新一代大型语言模型,采用创新的混合注意力机制和高稀疏专家混合架构,在保持80B总参数的同时仅激活3B参数,实现了高效的上下文建模和推理加速,原生支持262K上下文长度并可扩展至1M令牌。
Qwen3-Next-80B-A3B-Instruct-AWQ-4bit是基于Qwen3-Next-80B-A3B-Instruct模型进行4位AWQ量化的高效版本。该模型采用混合注意力机制和高稀疏专家混合架构,支持长达262K tokens的上下文长度,在保持高性能的同时大幅降低计算资源需求。
Qwen
Qwen3-Next-80B-A3B-Instruct是Qwen3-Next系列的基础模型,通过创新的混合注意力机制、高稀疏性专家混合层等技术,实现了在长文本处理上的高效建模和推理加速,在多个基准测试中展现出卓越性能。
Kwai-Klear
Klear是由快手Kwai-Klear团队开发的稀疏混合专家(MoE)大语言模型,具备高性能和推理效率的特点。总参数460亿,激活参数仅25亿,在多个能力基准测试中表现出色,为实际应用提供了高效且强大的解决方案。
mistralai
Mixtral-8x22B是一个预训练的生成式稀疏混合专家模型,支持多种语言。
mistral-community
Mixtral-8x22B 是一个预训练的生成式稀疏专家混合大语言模型,由 Mistral AI 团队开发。该模型支持多语言处理,在多个文本生成任务上表现优异,包括推理挑战、常识推理和数学问题求解等。
v2ray
Mixtral-8x22B 是 Mistral AI 发布的预训练生成式稀疏混合专家模型,支持多语言处理。
dice-research
LOLA是基于稀疏混合专家(Mixture-of-Experts)Transformer架构、支持160多种语言的超大规模多语言大模型,在自然语言生成与理解任务中具有竞争优势。
LanguageBind
MoE-LLaVA是一种基于专家混合架构的大型视觉语言模型,通过稀疏激活参数实现高效的多模态学习
MoE-LLaVA是一种基于专家混合架构的大规模视觉语言模型,通过稀疏激活参数实现高效的多模态学习。
hywu
Camelidae-8x34B是基于参数高效稀疏构建技术训练的专家混合体(MoE)模型,采用8个专家34B参数规模,在通用指令微调任务上表现出色,特别擅长代码和数学领域任务。
Camelidae-8x13B是基于参数高效稀疏构建技术的专家混合模型,通过指令微调帮助密集模型学习代码和数学等多领域知识,在保持高效参数利用的同时提升模型性能。
Camelidae-8x7B是基于参数高效稀疏构建技术的专家混合体模型,通过QLoRA和Adapter技术将密集模型转换为MoE架构,在代码和数学等多个领域表现出色。
LoneStriker
Mixtral-8x7B是一个预训练的生成式稀疏混合专家大语言模型,在多数基准测试中表现优于Llama 2 70B。
Mixtral-8x7B是一个预训练的生成式稀疏混合专家模型,在多数基准测试中表现优于Llama 2 70B。