阿里云推出通义千问Qwen3-VL系列两款新密集模型(2B与32B),使该系列开源模型总数达24个,形成从轻量到超大规模的技术矩阵。目前包含四款密集模型和两款专家混合模型,强化了模型生态的完整性与竞争力。
Radical Numerics发布30B参数开源扩散语言模型RND1-Base,采用稀疏专家混合架构,仅激活3B参数。该模型具备并行生成优势,在基准测试表现优异,并公开完整权重与训练方案,推动扩散模型技术发展。
Moondream3.0预览版采用高效混合专家架构,仅激活2亿参数,总参数量达9亿,在视觉推理方面表现卓越。相比前代,该模型在多项基准测试中超越GPT-5、Gemini和Claude4等顶尖模型,实现技术飞跃。支持32K上下文长度,适用于复杂场景处理。
Moondream3.0预览版以轻量高效的混合专家架构(总参9B,激活仅2B)引领视觉语言模型革新。它在复杂场景中表现卓越,多项基准测试超越GPT-5、Gemini和Claude4等主流模型。相比擅长验证码识别的2.0版,3.0版显著扩展了视觉推理能力,引发AI社区广泛关注。
首个融合区块扩散和专家混合技术的高效推理语言模型
高效的开源专家混合视觉语言模型,具备多模态推理能力。
DeepEP 是一个针对 Mixture-of-Experts 和专家并行通信的高效通信库。
Moonlight-16B-A3B 是一个基于 Muon 优化器训练的 16B 参数的混合专家模型,用于高效的语言生成。
alibaba
$0.72
Input tokens/M
Output tokens/M
128k
Context Length
tencent
$0.8
$2
32k
$2.16
deepseek
-
meta
$1.22
$4.32
1M
$1.94
$7.92
$0.58
10M
mistral
65.4k
32.8k
unsloth
MiniMax-M2是一款专为最大化编码和智能体工作流程而构建的小型混合专家模型,总参数达2300亿,激活参数为100亿。该模型在编码和智能体任务中表现卓越,同时保持强大的通用智能,具有紧凑、快速且经济高效的特点。
Qwen
Qwen3-VL是通义系列最强大的视觉语言模型,采用混合专家模型架构(MoE),提供GGUF格式权重,支持在CPU、GPU等设备上进行高效推理。模型在文本理解、视觉感知、空间理解、视频处理等方面全面升级。
Qwen3-VL-30B-A3B-Instruct是通义系列中最强大的视觉语言模型,采用混合专家模型架构,具备出色的文本理解与生成能力、深入的视觉感知与推理能力,支持256K长上下文和视频理解,可在多种设备上进行推理。
Qwen3-VL是迄今为止Qwen系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面都进行了全面升级。该模型采用混合专家(MoE)架构,提供卓越的多模态处理能力。
Qwen3-VL是通义大模型系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力以及出色的智能体交互能力。该模型采用混合专家(MoE)架构,是增强推理的思维版。
Qwen3-VL是通义系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面都进行了全面升级。该模型提供密集架构和混合专家架构,支持从边缘设备到云端的灵活部署。
redponike
MiniMax-M2是一款专为高效编码和智能体工作流打造的混合专家模型,具备2300亿总参数和100亿激活参数。该模型在编码和智能体任务中表现卓越,同时具有低延迟、低成本和高吞吐量的特点,能有效提升工作效率。
bullerwins
MiniMax-M2是一款专为最大化编码和智能体工作流程而构建的小型混合专家(MoE)模型。它拥有2300亿总参数,仅激活100亿参数,在编码和智能体任务中表现卓越,同时保持强大的通用智能,具有紧凑、快速且经济高效的特点。
cturan
MiniMax-M2 是一个基于 llama.cpp 实验性分支构建的大语言模型,具有混合专家架构,支持高效的文本生成和推理任务。该模型需要特定的实验性分支才能正常运行。
MiniMax-M2是一款专为最大化编码和智能体工作流程而构建的'迷你'模型。它是一个紧凑、快速且经济高效的混合专家(MoE)模型,在编码和智能体任务中表现卓越,同时还具备强大的通用智能。
noctrex
这是基于Intern-S1模型的MXFP4混合专家量化版本,专门针对图像文本到文本任务进行了优化,通过量化技术提升了推理效率。
Wwayu
这是一个基于GLM-4.6架构的混合专家模型,使用REAP方法对专家进行了40%的均匀剪枝,参数量为218B,并转换为MLX格式的3位量化版本,适用于苹果芯片设备高效运行。
这是GLM-4.5-Air-REAP-82B-A12B模型的MXFP4_MOE量化版本,专门针对文本生成任务进行了优化。该模型基于cerebras的GLM-4.5-Air-REAP-82B-A12B基础模型,通过MXFP4混合专家量化技术实现,在保持性能的同时显著减小模型体积和推理成本。
thenexthub
OpenModel-1T-A50B-Instruct是NeXTHub开发的万亿参数混合专家模型,结合进化思维链训练方法,在推理能力和能源效率上取得平衡,具备深度推理能力和128K长上下文处理能力。
MiniMaxAI
MiniMax-M2是一款专为最大化编码和智能体工作流程而构建的'迷你'模型,采用混合专家架构,总参数2300亿,激活参数100亿。该模型在编码和智能体任务中表现卓越,同时保持强大的通用智能,具有紧凑、快速且经济高效的特点。
mlfoundations-cua-dev
OLGA是基于Qwen3-VL-30B-A3B-Instruct构建的在线强化学习定位代理,采用33亿激活参数的专家混合模型。通过结合现有数据集、新数据收集、自动过滤和在线强化学习的新数据配方进行训练,在开源模型中实现了先进的定位性能。
Qwen3-VL-32B-Thinking是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。该版本采用增强推理的思维架构,支持从边缘到云的密集架构和混合专家模型架构。
manasmisra
该模型是基于GLM-4.5-Air使用REAP方法进行25%均匀剪枝后的专家混合模型,已转换为MLX格式的4位量化版本,适用于苹果芯片设备的高效推理。
Daemontatox
Zirel-3是基于GLM-4.5-Air-REAP-82B-A12B的特定微调模型,采用REAP(路由加权专家激活剪枝)技术压缩的820亿参数混合专家模型,在保持高性能的同时显著减少模型体积。
inclusionAI
Ming-flash-omni 预览版是基于 Ling-Flash-2.0 稀疏专家混合(MoE)架构构建的多模态大模型,总参数达100B,每个token仅激活6B参数。该模型在Ming-Omni基础上进行了全面升级,在多模态理解和生成方面有显著提升,特别是在语音识别、图像生成和分割编辑方面表现突出。