埃隆・马斯克在巴伦投资大会上首次量化预测AGI时间表:明年Q1发布的Grok 5有约10%概率实现通用人工智能。技术亮点包括:6万亿参数MoE架构(稀疏度70%)、多模态统一编码(文本/图像/音频/实时视频流)、帧级延迟<120ms。训练数据来自X平台每日5亿帖文与2亿小时视频流,支持实时回灌训练。
蚂蚁集团开源百灵大模型Ring-flash-linear-2.0-128K,专攻超长文本编程。采用混合线性注意力与稀疏MoE架构,仅激活6.1B参数即可媲美40B密集模型,在代码生成和智能代理领域达到最优表现,高效解决长上下文处理痛点。
蚂蚁百灵开源高效推理模型Ring-mini-sparse-2.0-exp,基于Ling2.0架构优化长序列解码。创新结合高稀疏比MoE结构与稀疏注意力机制,显著提升复杂长序列推理性能。通过架构与推理框架深度协同优化,有效应对长序列处理挑战。
Liquid AI推出LFM2-8B-A1B模型,采用稀疏激活MoE架构,总参数量8.3B但每token仅激活1.5B参数。该设计在保持高表示能力的同时显著降低计算负载,突破“小规模MoE低效”认知,专为资源受限的边缘设备优化,支持实时交互场景。
Doubao-1.5-pro 是一个高性能的稀疏 MoE 大语言模型,专注于推理性能与模型能力的极致平衡。
Alibaba
$4
Input tokens/M
$16
Output tokens/M
1k
Context Length
$2
$20
-
256
Moonshot
Bytedance
$0.8
128
Xai
$1.4
$10.5
Tencent
$1
32
Deepseek
$12
Openai
$0.4
$0.75
64
24
Chatglm
$8
$0.7
$1.95
16
jackcloudman
Qwen3-Next-80B-A3B-Thinking 是通义千问团队推出的新一代思考型大语言模型,采用创新的混合注意力机制和高稀疏MoE架构,在保持高效推理的同时具备强大的复杂推理能力,原生支持262K上下文长度。
inclusionAI
Ming-flash-omni 预览版是基于 Ling-Flash-2.0 稀疏专家混合(MoE)架构构建的多模态大模型,总参数达100B,每个token仅激活6B参数。该模型在Ming-Omni基础上进行了全面升级,在多模态理解和生成方面有显著提升,特别是在语音识别、图像生成和分割编辑方面表现突出。
cpatonn
Qwen3-Next-80B-A3B-Instruct是通义千问团队开发的高效稀疏混合专家模型,总参数量80B,激活参数量仅3B。该模型采用创新的混合注意力机制和极低激活率的MoE架构,在保持强大性能的同时大幅提升推理效率,原生支持262K上下文长度并可扩展至1M令牌。
Qwen3-Next-80B-A3B-Thinking-AWQ-4bit是基于Qwen3-Next-80B-A3B-Thinking模型通过AWQ量化技术生成的4位版本,显著提升了模型推理效率。该模型采用混合注意力机制和高稀疏MoE架构,在复杂推理任务中表现出色,支持长达262K标记的上下文长度。
Kwai-Klear
Klear是由快手Kwai-Klear团队开发的稀疏混合专家(MoE)大语言模型,具备高性能和推理效率的特点。总参数460亿,激活参数仅25亿,在多个能力基准测试中表现出色,为实际应用提供了高效且强大的解决方案。
LanguageBind
MoE-LLaVA是一种基于专家混合架构的大型视觉语言模型,通过稀疏激活参数实现高效的多模态学习
MoE-LLaVA是一种基于专家混合架构的大规模视觉语言模型,通过稀疏激活参数实现高效的多模态学习。
hywu
Camelidae-8x34B是基于参数高效稀疏构建技术训练的专家混合体(MoE)模型,采用8个专家34B参数规模,在通用指令微调任务上表现出色,特别擅长代码和数学领域任务。
Camelidae-8x7B是基于参数高效稀疏构建技术的专家混合体模型,通过QLoRA和Adapter技术将密集模型转换为MoE架构,在代码和数学等多个领域表现出色。
google
基于掩码语言建模任务训练的混合专家(MoE)模型,参数规模达1.6万亿,采用类似T5的架构但前馈层替换为稀疏MLP层
Switch Transformers是基于专家混合(Mixture of Experts, MoE)架构的掩码语言模型,在T5架构基础上改进,用稀疏MLP层替代前馈层,包含32个专家网络。该模型在训练效率和微调任务表现上优于T5,支持自然语言处理相关应用。
Switch Transformers是基于混合专家(MoE)架构的语言模型,在掩码语言建模任务上训练。该模型架构与T5相似,但将前馈层替换为包含16个专家MLP的稀疏MLP层,在保持性能的同时实现了更快的训练速度和更好的可扩展性。
Switch Transformers是基于混合专家(MoE)架构的语言模型,专为掩码语言建模任务训练。该模型架构与T5类似,但将前馈层替换为包含8个专家MLP的稀疏MLP层,在微调任务上表现优于T5,同时实现更快的训练速度。