阿里通义千问团队开源Qwen3-TTS系列语音生成模型,采用端到端架构,支持秒级音色克隆、自然语言音色设计和实时流式输出。其核心创新Dual-Track双轨混合流式生成机制结合离散多码本语言模型,实现极致低延迟,大幅降低实时应用门槛。
DeepSeek团队推出Engram模块,为稀疏大语言模型引入“条件记忆轴”,旨在解决传统Transformer处理重复知识时计算资源浪费的问题。该模块作为混合专家模型的补充,将N-gram嵌入技术融入模型,提升处理重复模式的效率。
Signal65基准测试显示,英伟达GB200 NVL72在运行Deepseek-R1混合专家模型时,性能显著优于同规模AMD MI355X集群。混合专家模型通过激活特定专家提升效率,但大规模扩展时面临节点通信延迟和带宽压力挑战。
YuanLab.ai发布开源多模态大模型Yuan3.0Flash,参数规模达40B,采用稀疏混合专家架构,推理时仅激活约3.7B参数,显著提升效率。模型提供16bit与4bit权重、技术报告及训练方法,支持二次开发和行业定制,推动AI技术普及。
首个融合区块扩散和专家混合技术的高效推理语言模型
高效的开源专家混合视觉语言模型,具备多模态推理能力。
业界首个超大规模混合 Mamba 推理模型,强推理能力。
MoBA 是一种用于长文本上下文的混合块注意力机制,旨在提升大语言模型的效率。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$6
$24
Baidu
128
$2
$20
$8
$240
52
Bytedance
$1.2
$3.6
4
PrimeIntellect
INTELLECT-3是一个拥有1060亿参数的混合专家(MoE)模型,通过大规模强化学习训练而成。在数学、编码和推理基准测试中展现出卓越性能,模型、训练框架和环境均以宽松许可协议开源。
bartowski
这是一个基于REAP方法对MiniMax-M2中40%专家进行均匀剪枝得到的139B参数大语言模型,采用GLM架构和专家混合(MoE)技术,通过llama.cpp进行多种量化处理,适用于文本生成任务。
noctrex
Aquif-3.5-Max-42B-A3B是一个420亿参数的大型语言模型,经过MXFP4_MOE量化处理,在保持高质量文本生成能力的同时优化了推理效率。该模型基于先进的混合专家架构,适用于多种自然语言处理任务。
unsloth
Qwen3-VL是通义大模型系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力以及出色的智能体交互能力。该模型采用混合专家(MoE)架构,是增强推理的思维版。
cturan
MiniMax-M2 是一个基于 llama.cpp 实验性分支构建的大语言模型,具有混合专家架构,支持高效的文本生成和推理任务。该模型需要特定的实验性分支才能正常运行。
nightmedia
Qwen3-Next-80B-A3B-Thinking-1M-qx64n-mlx是一个采用混合专家架构和Deckard混合精度量化技术的大语言模型,具有800亿参数和1M标记的上下文长度。该模型在科学技术推理和长文本处理方面表现卓越,相比指令模型在认知基准测试中提升20-35%。
jackcloudman
Qwen3-Next-80B-A3B-Thinking 是通义千问团队推出的新一代思考型大语言模型,采用创新的混合注意力机制和高稀疏MoE架构,在保持高效推理的同时具备强大的复杂推理能力,原生支持262K上下文长度。
nvidia
Nemotron-Flash-3B 是英伟达推出的新型混合小型语言模型,专门针对实际应用中的低延迟需求设计。该模型在数学、编码和常识推理等任务中展现出卓越性能,同时具备出色的小批量低延迟和大批量高吞吐量特性。
inclusionAI
Ming-flash-omni 预览版是基于 Ling-Flash-2.0 稀疏专家混合(MoE)架构构建的多模态大模型,总参数达100B,每个token仅激活6B参数。该模型在Ming-Omni基础上进行了全面升级,在多模态理解和生成方面有显著提升,特别是在语音识别、图像生成和分割编辑方面表现突出。
vito95311
这是Qwen3-Omni 31.7B参数模型的专业量化版本,采用先进的INT8+FP16混合精度量化技术,内存使用减少50%以上,支持智能GPU/CPU混合推理,让大型多模态模型能够在消费级硬件上高效运行。
cpatonn
Qwen3-Next-80B-A3B-Instruct是通义千问团队开发的高效稀疏混合专家模型,总参数量80B,激活参数量仅3B。该模型采用创新的混合注意力机制和极低激活率的MoE架构,在保持强大性能的同时大幅提升推理效率,原生支持262K上下文长度并可扩展至1M令牌。
Qwen
Qwen3-VL是通义大模型系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面均有显著提升。该模型提供密集架构和混合专家模型架构,支持从边缘到云的不同规模部署。
mlx-community
Jinx GPT OSS 20B MXFP4 MLX 是一个基于 MLX 框架转换的 200 亿参数大语言模型,采用混合精度量化技术优化,适用于苹果芯片设备的高效推理。
Infinigence
梅格雷斯2-3x7B-A3B是一款设备原生大语言模型,采用混合专家(MoE)架构,结合了MoE的准确性和密集模型的紧凑性优势。该模型在8T标记数据上训练,具备32K上下文长度,未来计划提升推理和代理能力。
Qwen3-Next-80B-A3B-Instruct是阿里巴巴通义千问团队开发的最新一代大型语言模型,采用创新的混合注意力机制和高稀疏专家混合架构,在保持80B总参数的同时仅激活3B参数,实现了高效的上下文建模和推理加速,原生支持262K上下文长度并可扩展至1M令牌。
Intel
基于Qwen3-Next-80B-A3B-Instruct的混合int4量化模型,采用AutoRound技术进行对称量化,组大小为128,非专家层回退到8位,在减少资源消耗的同时保持性能。适用于文本生成任务。
Qwen3-Next-80B-A3B-Instruct-AWQ-4bit是基于Qwen3-Next-80B-A3B-Instruct模型进行4位AWQ量化的高效版本。该模型采用混合注意力机制和高稀疏专家混合架构,支持长达262K tokens的上下文长度,在保持高性能的同时大幅降低计算资源需求。
NVIDIA Nemotron Nano 9B v2 是 NVIDIA 开发的一款高性能大语言模型,采用 Mamba2-Transformer 混合架构,支持多语言推理和聊天任务,在多个基准测试中表现优异,特别支持运行时'思考'预算控制功能。
LLaDA-MoE是基于扩散原理构建的新型混合专家语言模型,是首个开源的MoE扩散大语言模型,在约20万亿个标记上从头预训练,总参数70亿,推理时仅激活14亿参数,在代码生成和数学推理等任务中表现卓越。
Mungert
MiniCPM4.1-8B GGUF是专为端侧设备设计的高效大语言模型,在模型架构、训练数据、训练算法和推理系统四个关键维度进行了系统创新,实现了极致的效率提升。支持65,536个标记的上下文长度和混合推理模式。
GraphRAG MCP是一个结合Neo4j图数据库和Qdrant向量数据库的混合检索系统,为大型语言模型提供语义和图关系结合的文档检索服务。