OpenAI低调发布GPT-5.2,通过实测视频展示其强大能力:AI在180秒内零错误生成50页季度汇报,包括模板、数据、配图和备注。CEO承诺用户每周可节省至少10小时。技术上首次融合“混合专家”与“动态缓存”于同一权重,输入时动态分配计算资源,显著提升效率与准确性。
英伟达与Mistral AI合作,加速开发开放源模型Mistral 3系列。该系列为多语言、多模态模型,采用混合专家架构,针对英伟达平台优化,旨在提升任务处理效率。
腾讯自研大模型混元2.0(Tencent HY2.0)正式发布,与此同时,DeepSeek V3.2也逐步接入腾讯生态。目前,这两大模型已在元宝、ima等腾讯AI原生应用中率先上线,腾讯云也同步开放了相关模型的API及平台服务。 全新发布的Tencent HY2.0采用混合专家(MoE)架构,总参数量高达4
美国Arcee AI推出Trinity系列开源模型,旨在提升美国在AI领域的竞争力。该系列采用混合专家架构,训练完全在美国进行,目前包括Trinity Mini和Nano Preview两个模型,用户可通过官网体验,开发者可在Hugging Face平台获取。
首个融合区块扩散和专家混合技术的高效推理语言模型
高效的开源专家混合视觉语言模型,具备多模态推理能力。
Moonlight-16B-A3B 是一个基于 Muon 优化器训练的 16B 参数的混合专家模型,用于高效的语言生成。
Moonlight是一个16B参数的混合专家模型,使用Muon优化器训练,性能优异。
Openai
-
输入tokens/百万
输出tokens/百万
上下文长度
Anthropic
$7
$35
200
Alibaba
$4
$16
1k
$2
256
Deepseek
$12
128
32
$0.75
64
$0.63
$3.15
131
$1
Chatglm
$8
Tencent
$0.8
$0.5
224
$3
$9
16
noctrex
INTELLECT-3 是一个由 Prime Intellect 开发的、参数规模达 106B(激活参数 12B)的混合专家(MoE)推理模型。它基于 GLM-4.5-Air-Base 进行监督微调,并经过大规模强化学习训练,在数学、编码和推理任务上表现优异。
ai-sage
GigaChat3-10B-A1.8B 是 GigaChat 系列的高效对话模型,基于混合专家(MoE)架构,拥有 100 亿总参数和 18 亿活跃参数。它采用了创新的多头潜在注意力(MLA)和多令牌预测(MTP)技术,旨在优化推理吞吐量和生成速度。模型在 20T 令牌的多样化数据上训练,支持包括中文在内的 10 种语言,适用于需要快速响应的对话场景。
PrimeIntellect
INTELLECT-3是一个拥有1060亿参数的混合专家(MoE)模型,通过大规模强化学习训练而成。在数学、编码和推理基准测试中展现出卓越性能,模型、训练框架和环境均以宽松许可协议开源。
evilfreelancer
这是ai-sage/GigaChat3-10B-A1.8B模型的量化版本,采用GGUF格式,需要特定的llama.cpp分支支持。模型采用混合专家架构,总参数量约118亿,其中激活参数量约18亿。
mratsim
GLM-4.5-Iceblink-v2-106B-A12B-FP8是基于GLM-4.5-Iceblink-v2-106B-A12B模型,采用最先进的混合专家量化方法进行FP8量化的版本。该模型专门针对支持硬件FP8的Ada、Hopper或Blackwell系列GPU优化,在保持高质量输出的同时显著提升推理效率。
GigaChat3-10B-A1.8B是GigaChat系列的对话模型,基于混合专家(MoE)架构,共有100亿参数,其中18亿为活跃参数。该模型采用多头潜在注意力和多令牌预测技术,支持25.6万令牌的长上下文,在多语言对话和推理任务中表现出色。
GigaChat3-10B-A1.8B-base是GigaChat系列的基础预训练模型,采用混合专家(MoE)架构,总参数100亿,活跃参数18亿。模型集成了多头潜在注意力(MLA)和多令牌预测(MTP)技术,在推理时具备高吞吐量优势。
bartowski
这是一个基于REAP方法对MiniMax-M2中40%专家进行均匀剪枝得到的139B参数大语言模型,采用GLM架构和专家混合(MoE)技术,通过llama.cpp进行多种量化处理,适用于文本生成任务。
Kiy-K
Fyodor-StarCoder2-7B-MoE是基于StarCoder2-7B的增强版本,采用混合专家架构,拥有3个MoE层、6个专家网络和top-2路由机制,在代码生成、函数调用和智能体任务方面表现优异。
DavidAU
本模型是基于Qwen3-Coder-30B-A3B-Instruct混合专家模型,通过Brainstorm 20x技术进行深度微调生成的GGUF格式模型。它专为编程和通用目的设计,支持256K长上下文,并针对主流及小众编程语言的代码生成和理解进行了优化。
NyxKrage
Moondream 3 Preview HF是基于HuggingFace Transformers架构规范对Moondream 3 (Preview)模型的重新实现,使其能够与Hugging Face生态系统完全兼容。这是一个多模态视觉语言模型,采用专家混合(MoE)文本主干,约90亿参数,20亿活跃参数。
HIT-TMG
Uni-MoE 2.0-Omni 是荔枝科技(Lychee)推出的完全开源全模态模型,采用全模态 3D RoPE 和动态容量专家混合架构,显著提升了以语言为中心的多模态理解、推理和生成能力。该版本集成了全模态理解以及音频和图像生成能力。
unsloth
Qwen3-Coder-REAP-363B-A35B是通过REAP方法对Qwen3-Coder-480B-A35B-Instruct进行25%专家剪枝得到的稀疏混合专家模型,在保持接近原模型性能的同时显著降低了参数规模和内存需求,特别适用于资源受限的代码生成和智能编码场景。
Aquif-3.5-Max-42B-A3B是一个420亿参数的大型语言模型,经过MXFP4_MOE量化处理,在保持高质量文本生成能力的同时优化了推理效率。该模型基于先进的混合专家架构,适用于多种自然语言处理任务。
本项目是卡纳娜1.5-15.7B-A3B指令模型的MXFP4_MOE量化版本,可在特定场景下提升模型的运行效率。该模型基于kakaocorp/kanana-1.5-15.7b-a3b-instruct进行优化,采用混合专家架构和MXFP4量化技术。
moonshotai
Kimi K2 Thinking 是月之暗面(Moonshot AI)开发的最新一代开源思维模型,具有强大的深度推理能力和工具调用功能。该模型采用混合专家架构,支持原生INT4量化,拥有256k上下文窗口,在多个基准测试中表现出色。
Qwen3-VL是通义系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面全面升级。该模型提供密集架构和混合专家架构,支持从边缘设备到云端的灵活部署。
MiniMax-M2是一款专为最大化编码和智能体工作流程而构建的小型混合专家模型,总参数达2300亿,激活参数为100亿。该模型在编码和智能体任务中表现卓越,同时保持强大的通用智能,具有紧凑、快速且经济高效的特点。
Qwen
Qwen3-VL是通义系列最强大的视觉语言模型,采用混合专家模型架构(MoE),提供GGUF格式权重,支持在CPU、GPU等设备上进行高效推理。模型在文本理解、视觉感知、空间理解、视频处理等方面全面升级。
Qwen3-VL-30B-A3B-Instruct是通义系列中最强大的视觉语言模型,采用混合专家模型架构,具备出色的文本理解与生成能力、深入的视觉感知与推理能力,支持256K长上下文和视频理解,可在多种设备上进行推理。
ViperMCP是一个基于ViperGPT的混合专家视觉问答服务器,通过FastMCP提供可流式传输的MCP工具,支持视觉定位、组合图像问答和依赖外部知识的图像问答。