MiniMax发布新一代开源推理模型M2,专攻智能Agent应用。采用混合专家架构,总参数量2300亿,每次推理仅激活100亿参数,实现每秒100个token的高输出速度,在实时交互场景中优势显著。
阿里云推出通义千问Qwen3-VL系列两款新密集模型(2B与32B),使该系列开源模型总数达24个,形成从轻量到超大规模的技术矩阵。目前包含四款密集模型和两款专家混合模型,强化了模型生态的完整性与竞争力。
Radical Numerics发布30B参数开源扩散语言模型RND1-Base,采用稀疏专家混合架构,仅激活3B参数。该模型具备并行生成优势,在基准测试表现优异,并公开完整权重与训练方案,推动扩散模型技术发展。
Moondream3.0预览版采用高效混合专家架构,仅激活2亿参数,总参数量达9亿,在视觉推理方面表现卓越。相比前代,该模型在多项基准测试中超越GPT-5、Gemini和Claude4等顶尖模型,实现技术飞跃。支持32K上下文长度,适用于复杂场景处理。
首个融合区块扩散和专家混合技术的高效推理语言模型
高效的开源专家混合视觉语言模型,具备多模态推理能力。
Moonlight-16B-A3B 是一个基于 Muon 优化器训练的 16B 参数的混合专家模型,用于高效的语言生成。
Moonlight是一个16B参数的混合专家模型,使用Muon优化器训练,性能优异。
alibaba
$0.72
输入tokens/百万
输出tokens/百万
128k
上下文长度
tencent
$0.8
$2
32k
$2.16
deepseek
-
meta
$1.22
$4.32
1M
$1.94
$7.92
$0.58
10M
mistral
65.4k
32.8k
noctrex
这是基于Intern-S1模型的MXFP4混合专家量化版本,专门针对图像文本到文本任务进行了优化,通过量化技术提升了推理效率。
Wwayu
这是一个基于GLM-4.6架构的混合专家模型,使用REAP方法对专家进行了40%的均匀剪枝,参数量为218B,并转换为MLX格式的3位量化版本,适用于苹果芯片设备高效运行。
这是GLM-4.5-Air-REAP-82B-A12B模型的MXFP4_MOE量化版本,专门针对文本生成任务进行了优化。该模型基于cerebras的GLM-4.5-Air-REAP-82B-A12B基础模型,通过MXFP4混合专家量化技术实现,在保持性能的同时显著减小模型体积和推理成本。
thenexthub
OpenModel-1T-A50B-Instruct是NeXTHub开发的万亿参数混合专家模型,结合进化思维链训练方法,在推理能力和能源效率上取得平衡,具备深度推理能力和128K长上下文处理能力。
MiniMaxAI
MiniMax-M2是一款专为最大化编码和智能体工作流程而构建的'迷你'模型,采用混合专家架构,总参数2300亿,激活参数100亿。该模型在编码和智能体任务中表现卓越,同时保持强大的通用智能,具有紧凑、快速且经济高效的特点。
mlfoundations-cua-dev
OLGA是基于Qwen3-VL-30B-A3B-Instruct构建的在线强化学习定位代理,采用33亿激活参数的专家混合模型。通过结合现有数据集、新数据收集、自动过滤和在线强化学习的新数据配方进行训练,在开源模型中实现了先进的定位性能。
manasmisra
该模型是基于GLM-4.5-Air使用REAP方法进行25%均匀剪枝后的专家混合模型,已转换为MLX格式的4位量化版本,适用于苹果芯片设备的高效推理。
Daemontatox
Zirel-3是基于GLM-4.5-Air-REAP-82B-A12B的特定微调模型,采用REAP(路由加权专家激活剪枝)技术压缩的820亿参数混合专家模型,在保持高性能的同时显著减少模型体积。
inclusionAI
Ming-flash-omni 预览版是基于 Ling-Flash-2.0 稀疏专家混合(MoE)架构构建的多模态大模型,总参数达100B,每个token仅激活6B参数。该模型在Ming-Omni基础上进行了全面升级,在多模态理解和生成方面有显著提升,特别是在语音识别、图像生成和分割编辑方面表现突出。
MikeKuykendall
这是DeepSeek公司的DeepSeek-MoE-16B模型的Q4_K_M量化版本,通过llama.cpp的Rust绑定启用了MoE(专家混合)CPU卸载功能,显著减少显存使用。
mlx-community
LFM2-8B-A1B是针对苹果硅芯片优化的8位量化MLX构建版本,采用专家混合(MoE)架构,总参数约80亿,每个令牌激活约10亿参数,支持设备端快速推理。
nvidia
NVIDIA GPT-OSS-120B Eagle3是基于OpenAI gpt-oss-120b模型的优化版本,采用混合专家(MoE)架构,具备1200亿总参数和50亿激活参数。该模型支持商业和非商业使用,适用于文本生成任务,特别适合AI Agent系统、聊天机器人等应用开发。
这是基于WeOpenML的GPT-OSS 20B模型的GGUF格式版本,首次实现了创新的MoE CPU专家卸载技术。该技术在保持完整生成质量的同时,实现了99.9%的显存缩减,仅需2MB显存即可运行200亿参数的混合专家模型。
radicalnumerics
RND1是一个实验性的扩散语言模型,拥有300亿参数,采用稀疏专家混合架构。该模型从预训练的自回归基础模型转换而来,支持基于扩散的文本生成,每个标记仅激活30亿参数,在计算效率和模型容量之间取得平衡。
rand0nmr
Wan2.2是基础视频模型的重大升级版本,引入了混合专家(MoE)架构、融入精心策划的美学数据、在更大数据上训练以提升复杂运动生成能力。该模型支持生成480P和720P分辨率的5秒视频,在视频生成质量和性能上有显著提升。
IBM Granite-4.0-H-Tiny模型的5-bit量化版本,专为苹果硅芯片优化。采用Mamba-2与软注意力混合架构,结合混合专家模型(MoE),在保持高质量的同时实现高效推理。
IBM Granite-4.0-H-Tiny是经过苹果硅芯片优化的混合Mamba-2/Transformer模型,采用3位量化技术,专为长上下文、高效推理和企业使用而设计。该模型结合了Mamba-2架构和专家混合技术,在保持表达能力的同时显著降低内存占用。
DavidAU
这是一个基于Qwen3-Coder-30B-A3B-Instruct的混合专家模型,拥有540亿参数和100万上下文长度。模型通过三步合并和Brainstorm 40X优化,具备强大的编程能力和通用场景处理能力,特别集成了思考模块,能够在回答前进行深度推理。
Qwen
Qwen3-VL是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。该版本采用混合专家模型架构,支持增强推理思维功能。
cpatonn
Qwen3-Next-80B-A3B-Instruct是通义千问团队开发的高效稀疏混合专家模型,总参数量80B,激活参数量仅3B。该模型采用创新的混合注意力机制和极低激活率的MoE架构,在保持强大性能的同时大幅提升推理效率,原生支持262K上下文长度并可扩展至1M令牌。