阿里通义千问Qwen 3.5系列小模型打破“参数量决定智商”的常规认知。其中仅40亿参数的Qwen 3.5-4B在第三方测试中,与参数量过千亿的GPT-4o同台竞技,表现不落下风甚至略胜一筹。这标志着国产大模型在本地部署和效率优化上取得重要突破,开启“以小博大”的新时代。
阶跃星辰开源Step3.5Flash模型全链路,包括预训练、中训练权重及训练框架。该模型专为智能体设计,采用稀疏MoE架构,总参数量1960亿,推理时仅激活约110亿参数,能效比高,单请求代码任务推理速度最高达350TP。
春节假期国产AI大模型密集发布,智谱科技GLM-5模型备受关注。该模型参数量达7440亿,较前代翻倍,技术实现突破,并全面支持七大国产芯片平台,展现中国AI实力。
春节期间国产大模型集中发布,智谱AI推出旗舰模型GLM-5,定位全能型对话、编程与智能体模型,采用稀疏注意力与多Token预测技术,参数量达745B,约为前代两倍。
一款开源的14B参数量的数学模型,通过强化学习训练,性能卓越。
Qwen2.5-Coder系列中的0.5B参数量指令调优模型
Qwen2.5-Coder系列中的1.5B参数量级代码生成模型
Qwen2.5-Coder系列中的3B参数量指令调优模型
Alibaba
$1
Input tokens/M
$10
Output tokens/M
256
Context Length
Chatglm
$8
$16
128
$0.3
-
32
$2
Baidu
Huawei
Tencent
$6
$18
Stepfun
Minimax
8
01-ai
200
Baichuan
4
evilfreelancer
这是ai-sage/GigaChat3-10B-A1.8B模型的量化版本,采用GGUF格式,需要特定的llama.cpp分支支持。模型采用混合专家架构,总参数量约118亿,其中激活参数量约18亿。
Clemylia
夏洛特-AMY是由Clemylia开发的精细调优小型语言模型,拥有5100万参数,专注于希望、友谊、伦理和支持领域。该模型秉持'训练质量优于参数数量'的理念,在语义清晰度和连贯性方面表现优异,提供高质量的伦理咨询和情感支持服务。
mlx-community
Granite-4.0-H-1B-8bit 是 IBM Granite 系列的小型语言模型,专门针对 Apple Silicon 芯片优化,采用 8 位量化技术,参数量为 1B,具有高效推理和低资源消耗的特点。
Wwayu
这是一个基于GLM-4.6架构的混合专家模型,使用REAP方法对专家进行了40%的均匀剪枝,参数量为218B,并转换为MLX格式的3位量化版本,适用于苹果芯片设备高效运行。
cpatonn
Qwen3-Next-80B-A3B-Instruct是通义千问团队开发的高效稀疏混合专家模型,总参数量80B,激活参数量仅3B。该模型采用创新的混合注意力机制和极低激活率的MoE架构,在保持强大性能的同时大幅提升推理效率,原生支持262K上下文长度并可扩展至1M令牌。
ggml-org
这是由Qwen/Qwen3-4B-Thinking-2507模型转换而来的GGUF格式版本,采用Q8_0量化,可与llama.cpp兼容使用。该模型具有思维链推理能力,参数量为40亿。
embeddinggemma-300M是一个经过量化优化的轻量级文本嵌入模型,基于Google的embeddinggemma架构,采用QAT(量化感知训练)和Q4_0量化技术,参数量为300M。该模型专门用于生成高质量的文本嵌入向量,支持句子相似度计算和特征提取等任务。
gguf-org
FastVLM是由苹果公司开发的轻量级视觉语言模型,参数量为5亿,支持文本生成和视觉语言理解任务。该模型提供了多种量化版本,可通过gguf-connector工具便捷运行。
calcuis
FastVLM-0.5B是苹果公司开发的高效视觉语言模型,参数量为5亿,通过GGUF格式优化,可在资源受限环境中实现快速的文本生成和视觉语言理解任务。
OpenGVLab
InternVL3.5-1B是InternVL系列的开源多模态模型,参数量为1.1B,包含0.3B视觉参数和0.8B语言参数。该模型显著提升了通用性、推理能力和推理效率,支持GUI交互等新功能。
Jackmin108
GLM-4.5-Air是智谱AI推出的适用于智能体的基础模型,采用紧凑设计,统一了推理、编码和智能体能力,能满足智能体应用的复杂需求。该模型参数量适中且效率优越,已开源多种版本,可用于商业和二次开发。
lmstudio-community
Seed-OSS-36B-Instruct是由ByteDance-Seed开发的大型语言模型,参数量达360亿,采用Apache-2.0开源许可证。该模型基于transformers库构建,支持vllm和mlx技术优化,特别针对苹果Silicon芯片进行了8位量化处理,提供高效的文本生成能力。
dnakov
Seed-OSS-36B-Instruct是由ByteDance开发的大规模语言模型,参数量达360亿,专注于文本生成任务。该模型基于MLX框架实现,支持中英文双语,具备强大的指令跟随和文本生成能力。
istupakov
NVIDIA Parakeet TDT 0.6B V3是一个多语言自动语音识别模型,参数量为6亿,支持包括英语、西班牙语、法语、德语等25种欧洲语言,可将语音转换为文本。
fredzzp
Open-DCoder 0.5B 是一个基于Qwen2架构的代码生成掩码扩散模型,参数量为5亿。该模型采用双向注意力机制和创新的扩散生成方法,专门用于代码生成任务。
minpeter
这是一个基于transformers库开发的多语言基础模型,特别针对韩语进行了优化。模型参数量为1.87亿,采用Apache-2.0开源许可证发布。
prithivMLmods
Qwen3代码推理是一个参数量为40亿的紧凑型模型,在nvidia/OpenCodeReasoning上进行了微调,专门为编码和逻辑推理任务而设计。该模型在代码生成和逻辑问答方面表现出色,支持超过10000个标记的上下文窗口。
kshitijthakkar
LoggenixMoE133M是一款轻量级混合专家(MoE)因果语言模型,总参数量133M,活跃参数量80M。该模型在包含根因分析、代码生成和推理任务的自定义数据集上从头训练,支持智能体能力特殊标记,适合边缘设备部署和专业AI智能体构建。
Eric1227
基于Llama 3.2架构的混合专家模型,包含8个专家,每个专家4B参数,总参数量约21B,支持128k上下文长度,经过专门微调优化的文本生成模型
suayptalha
这是一个基于Qwen3的混合专家模型(MoE),总参数量为24亿,包含4个6亿参数的专家模型,旨在以更高效率和更低内存占用提供更准确的结果。
MCP TAVILY SEARCH是一个基于Model Context Protocol (MCP)的服务,提供通过Tavily进行搜索的功能。支持快速安装和配置,可通过命令行或Docker运行,并提供调试工具。主要功能包括新闻搜索,支持关键词、时间范围、数量限制等参数配置。