最好的稀疏混合专家 AI工具模型_精选稀疏混合专家资讯

AI资讯

阿里开源 Qwen3.6-35B-A3B:30亿激活参数实现编程能力跨越式升级

阿里巴巴千问团队开源稀疏混合专家模型Qwen3.6-35B-A3B，总参数量350亿，激活参数仅30亿。该模型以低计算成本在多项编程基准测试中超越Qwen3.5-27B，并显著领先前代Qwen3.5-35B-A3B，实现轻量级模型在智能体编程领域的关键突破。

243.7k 49 分钟前

谁是谁的“老师”？Mistral CEO 称 DeepSeek 借鉴其架构引发技术圈热议

Mistral CEO称中国DeepSeek-V3基于其架构，引发关于AI创新归属的争议。核心围绕稀疏混合专家模型技术是借鉴还是自主创新。

11.9k 前天

DeepSeek 推出 Engram 模块：为稀疏大模型植入“条件记忆轴”，效率大幅提升

DeepSeek团队推出Engram模块，为稀疏大语言模型引入“条件记忆轴”，旨在解决传统Transformer处理重复知识时计算资源浪费的问题。该模块作为混合专家模型的补充，将N-gram嵌入技术融入模型，提升处理重复模式的效率。

15.7k 6 天前

DeepSeek 推出 Engram 模块：为稀疏大模型植入“条件记忆轴”，效率大幅提升

源 Yuan3.0Flash:开源多模态基础大模型引领 AI 新潮流

YuanLab.ai发布开源多模态大模型Yuan3.0Flash，参数规模达40B，采用稀疏混合专家架构，推理时仅激活约3.7B参数，显著提升效率。模型提供16bit与4bit权重、技术报告及训练方法，支持二次开发和行业定制，推动AI技术普及。

18k 5 小时前

模型

qwen3-coder-plus

Alibaba

输入tokens/百万

$16

输出tokens/百万

上下文长度

Qwen3-Next-80B-A3B-Instruct

Alibaba

输入tokens/百万

输出tokens/百万

256

上下文长度

Qwen3-30B-A3B-Instruct-2507

Alibaba

$0.75

输入tokens/百万

输出tokens/百万

256

上下文长度

Qwen3-235B-A22B-Instruct-2507

Alibaba

输入tokens/百万

输出tokens/百万

上下文长度

GPT OSS 120B

Openai

$0.63

输入tokens/百万

$3.15

输出tokens/百万

131

上下文长度

qwen3-coder-flash

Alibaba

输入tokens/百万

输出tokens/百万

上下文长度

GLM-4.5-Flash

Chatglm

输入tokens/百万

输出tokens/百万

128

上下文长度

GLM-4.5-X

Chatglm

输入tokens/百万

$16

输出tokens/百万

128

上下文长度

GLM-4.5

Chatglm

输入tokens/百万

输出tokens/百万

128

上下文长度

Qwen3-30B-A3B

Alibaba

$0.75

输入tokens/百万

输出tokens/百万

上下文长度

Qwen3-235B-A22B

Alibaba

输入tokens/百万

输出tokens/百万

上下文长度

Hunyuan-A13B

Tencent

$0.5

输入tokens/百万

输出tokens/百万

224

上下文长度

Hunyuan-Translation-Lite

Tencent

输入tokens/百万

输出tokens/百万

上下文长度

qwen-omni-turbo-realtime

Alibaba

输入tokens/百万

$6.4

输出tokens/百万

上下文长度

Hunyuan-Turbo

Tencent

$2.4

输入tokens/百万

$9.6

输出tokens/百万

上下文长度

qwen-omni-turbo

Alibaba

$1.5

输入tokens/百万

$1.6

输出tokens/百万

上下文长度

Hunyuan-Large

Tencent

输入tokens/百万

$12

输出tokens/百万

上下文长度

SenseNova V6 Pro

Sensetime

输入tokens/百万

输出tokens/百万

128

上下文长度

Hunyuan-Lite

Tencent

输入tokens/百万

输出tokens/百万

250

上下文长度

Yi-Lightning

01-ai

$0.99

输入tokens/百万

$0.99

输出tokens/百万

上下文长度

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

友情链接:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

商务合作网站地图

AI资讯

阿里开源 Qwen3.6-35B-A3B:30亿激活参数实现编程能力跨越式升级

谁是谁的“老师”？Mistral CEO 称 DeepSeek 借鉴其架构引发技术圈热议

​DeepSeek 推出 Engram 模块：为稀疏大模型植入“条件记忆轴”，效率大幅提升

源 Yuan3.0Flash:开源多模态基础大模型引领 AI 新潮流

模型

qwen3-coder-plus

Qwen3-Next-80B-A3B-Instruct

Qwen3-30B-A3B-Instruct-2507

Qwen3-235B-A22B-Instruct-2507

GPT OSS 120B

qwen3-coder-flash

GLM-4.5-Flash

GLM-4.5-X

GLM-4.5

Qwen3-30B-A3B

Qwen3-235B-A22B

Hunyuan-A13B

Hunyuan-Translation-Lite

qwen-omni-turbo-realtime

Hunyuan-Turbo

qwen-omni-turbo

Hunyuan-Large

SenseNova V6 Pro

Hunyuan-Lite

Yi-Lightning

Qwen3 Coder REAP 363B A35B GGUF

Ming Flash Omni Preview

RND1 Base 0910

Qwen3 Next 80B A3B Instruct AWQ 8bit

Qwen3 Next 80B A3B Instruct Bnb 4bit

Qwen3 Next 80B A3B Instruct AWQ 4bit

Qwen3 Next 80B A3B Instruct

Klear 46B A2.5B Instruct

Mixtral 8x22B V0.1

Mixtral 8x22B V0.1

Mixtral 8x22B V0.1

Lola_v1

MoE LLaVA Qwen 1.8B 4e

MoE LLaVA StableLM 1.6B 4e

Camelidae 8x34B

Camelidae 8x13B

Camelidae 8x7B

Mixtral 8x7B Instruct V0.1 HF

Mixtral 8x7B Instruct V0.1

Mixtral 8x7B V0.1

DeepSeek 推出 Engram 模块：为稀疏大模型植入“条件记忆轴”，效率大幅提升