腾讯发布混元2.0大模型,含推理增强版和指令遵循版,总参数406B,支持256K上下文窗口,在数学、代码等复杂推理任务上表现突出。模型采用MoE架构,已上线腾讯云API并在部分应用灰度测试。
腾讯自研大模型混元2.0(Tencent HY2.0)正式发布,与此同时,DeepSeek V3.2也逐步接入腾讯生态。目前,这两大模型已在元宝、ima等腾讯AI原生应用中率先上线,腾讯云也同步开放了相关模型的API及平台服务。 全新发布的Tencent HY2.0采用混合专家(MoE)架构,总参数量高达4
阿里巴巴通义千问团队在NeurIPS 2025获最佳论文奖,论文《Attention Gating Makes Better Foundation Models》提出“滑动门”机制,在标准注意力后添加可学习门控,动态筛选关键头和token参与下游计算。实验证明,1.7B稠密模型性能媲美15B MoE模型。本届大会投稿2万篇,录取率仅25%,竞争激烈,该论文是四篇获奖作品中唯一中国成果。
DeepSeek团队发布236B参数数学大模型DeepSeek-Math-V2,采用MoE架构,仅激活21B参数,支持128K上下文。该模型以Apache2.0开源,引发下载热潮。在数学测试中表现优异:MATH基准达75.7%,接近GPT-4o;AIME2024解题30中4,超越Gemini和Claude;Math Odyssey获53.7%成绩。其核心技术为“自验证”机制。
通过先进的MoE技术在消费级GPU上将文本和图像转换为720P视频。
Qwen2.5-Max是一个大规模的Mixture-of-Expert (MoE)模型,致力于提升模型智能。
Doubao-1.5-pro 是一个高性能的稀疏 MoE 大语言模型,专注于推理性能与模型能力的极致平衡。
RWKV家族中最大的模型,采用MoE技术提升效率。
Alibaba
$4
输入tokens/百万
$16
输出tokens/百万
1k
上下文长度
$2
$20
-
256
Moonshot
Bytedance
$0.8
128
Xai
$1.4
$10.5
Tencent
$1
32
Deepseek
$12
Openai
$0.4
$0.75
64
24
Chatglm
$8
$0.7
$1.95
16
PrimeIntellect
INTELLECT-3是一个拥有1060亿参数的混合专家(MoE)模型,通过大规模强化学习训练而成。在数学、编码和推理基准测试中展现出卓越性能,模型、训练框架和环境均以宽松许可协议开源。
Gjm1234
Wan2.2是基础视频模型的重大升级版本,专注于将有效MoE架构、高效训练策略和多模态融合等创新技术融入视频扩散模型,为视频生成领域带来更强大、更高效的解决方案。
ai-sage
GigaChat3-10B-A1.8B是GigaChat系列的对话模型,基于混合专家(MoE)架构,共有100亿参数,其中18亿为活跃参数。该模型采用多头潜在注意力和多令牌预测技术,支持25.6万令牌的长上下文,在多语言对话和推理任务中表现出色。
GigaChat3-10B-A1.8B-base是GigaChat系列的基础预训练模型,采用混合专家(MoE)架构,总参数100亿,活跃参数18亿。模型集成了多头潜在注意力(MLA)和多令牌预测(MTP)技术,在推理时具备高吞吐量优势。
bartowski
这是一个基于REAP方法对MiniMax-M2中40%专家进行均匀剪枝得到的139B参数大语言模型,采用GLM架构和专家混合(MoE)技术,通过llama.cpp进行多种量化处理,适用于文本生成任务。
Kiy-K
Fyodor-StarCoder2-7B-MoE是基于StarCoder2-7B的增强版本,采用混合专家架构,拥有3个MoE层、6个专家网络和top-2路由机制,在代码生成、函数调用和智能体任务方面表现优异。
NyxKrage
Moondream 3 Preview HF是基于HuggingFace Transformers架构规范对Moondream 3 (Preview)模型的重新实现,使其能够与Hugging Face生态系统完全兼容。这是一个多模态视觉语言模型,采用专家混合(MoE)文本主干,约90亿参数,20亿活跃参数。
Qwen
Qwen3-VL是通义系列最强大的视觉语言模型,采用混合专家模型架构(MoE),提供GGUF格式权重,支持在CPU、GPU等设备上进行高效推理。模型在文本理解、视觉感知、空间理解、视频处理等方面全面升级。
unsloth
Qwen3-VL是迄今为止Qwen系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面都进行了全面升级。该模型采用混合专家(MoE)架构,提供卓越的多模态处理能力。
Qwen3-VL是通义大模型系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力以及出色的智能体交互能力。该模型采用混合专家(MoE)架构,是增强推理的思维版。
bullerwins
MiniMax-M2是一款专为最大化编码和智能体工作流程而构建的小型混合专家(MoE)模型。它拥有2300亿总参数,仅激活100亿参数,在编码和智能体任务中表现卓越,同时保持强大的通用智能,具有紧凑、快速且经济高效的特点。
MiniMax-M2是一款专为最大化编码和智能体工作流程而构建的'迷你'模型。它是一个紧凑、快速且经济高效的混合专家(MoE)模型,在编码和智能体任务中表现卓越,同时还具备强大的通用智能。
jackcloudman
Qwen3-Next-80B-A3B-Thinking 是通义千问团队推出的新一代思考型大语言模型,采用创新的混合注意力机制和高稀疏MoE架构,在保持高效推理的同时具备强大的复杂推理能力,原生支持262K上下文长度。
ubergarm2
这是inclusionAI/Ling-1T模型的量化版本集合,基于ik_llama.cpp分支开发,提供多种量化方案以适应不同的内存和性能需求。这些量化模型在给定的内存占用下提供出色的困惑度表现,特别优化了MoE架构的推理效率。
inclusionAI
Ming-flash-omni 预览版是基于 Ling-Flash-2.0 稀疏专家混合(MoE)架构构建的多模态大模型,总参数达100B,每个token仅激活6B参数。该模型在Ming-Omni基础上进行了全面升级,在多模态理解和生成方面有显著提升,特别是在语音识别、图像生成和分割编辑方面表现突出。
MikeKuykendall
这是DeepSeek公司的DeepSeek-MoE-16B模型的Q4_K_M量化版本,通过llama.cpp的Rust绑定启用了MoE(专家混合)CPU卸载功能,显著减少显存使用。
mlx-community
LFM2-8B-A1B是针对苹果硅芯片优化的8位量化MLX构建版本,采用专家混合(MoE)架构,总参数约80亿,每个令牌激活约10亿参数,支持设备端快速推理。
nvidia
NVIDIA GPT-OSS-120B Eagle3是基于OpenAI gpt-oss-120b模型的优化版本,采用混合专家(MoE)架构,具备1200亿总参数和50亿激活参数。该模型支持商业和非商业使用,适用于文本生成任务,特别适合AI Agent系统、聊天机器人等应用开发。
这是基于WeOpenML的GPT-OSS 20B模型的GGUF格式版本,首次实现了创新的MoE CPU专家卸载技术。该技术在保持完整生成质量的同时,实现了99.9%的显存缩减,仅需2MB显存即可运行200亿参数的混合专家模型。
bullpoint
GLM-4.6-AWQ是对智谱AI的GLM-4.6(357B MoE)进行高性能AWQ量化的模型,专为vLLM推理进行了优化,能有效提升生产部署的吞吐量。该模型采用4位量化技术,在保持高精度的同时显著减少显存占用。
MOEX股票与新闻MCP服务器是一个基于Model Context Protocol的接口服务,提供莫斯科交易所股票行情、金融新闻查询及分析功能,支持与大型语言模型集成。