蚂蚁集团百灵大模型推出Ling-2.6-flash Instruct模型,以高“智效比”引发关注。该模型总参数量达104B,但激活参数仅7.4B,在性能与效率间取得平衡,展现出均衡的技术表现。
国产AI模型Qwen3.6-35B-A3B正式开源,采用混合专家架构,总参数量350亿但推理时仅激活30亿参数,实现“以小博大”的高效性能,显著降低算力成本。
阿里巴巴千问团队开源稀疏混合专家模型Qwen3.6-35B-A3B,总参数量350亿,激活参数仅30亿。该模型以低计算成本在多项编程基准测试中超越Qwen3.5-27B,并显著领先前代Qwen3.5-35B-A3B,实现轻量级模型在智能体编程领域的关键突破。
匿名模型Elephant Alpha上线一天即登OpenRouter趋势榜前列,日使用量激增377%。该模型参数量达1000亿,支持256K上下文输入和32K输出,在保持与同类先进模型相当智能水平的同时,具备更快响应速度和更低资源消耗。目前社区对其来源猜测不一,可能是国产最新模型的Flash版本或海外模型。
一款开源的14B参数量的数学模型,通过强化学习训练,性能卓越。
Qwen2.5-Coder系列中的0.5B参数量指令调优模型
Qwen2.5-Coder系列中的1.5B参数量级代码生成模型
Qwen2.5-Coder系列中的3B参数量指令调优模型
Alibaba
$1
Input tokens/M
$10
Output tokens/M
256
Context Length
Chatglm
$8
$16
128
$0.3
-
32
$2
Baidu
Huawei
Tencent
$6
$18
Stepfun
Minimax
8
01-ai
200
Baichuan
4
evilfreelancer
这是ai-sage/GigaChat3-10B-A1.8B模型的量化版本,采用GGUF格式,需要特定的llama.cpp分支支持。模型采用混合专家架构,总参数量约118亿,其中激活参数量约18亿。
Clemylia
夏洛特-AMY是由Clemylia开发的精细调优小型语言模型,拥有5100万参数,专注于希望、友谊、伦理和支持领域。该模型秉持'训练质量优于参数数量'的理念,在语义清晰度和连贯性方面表现优异,提供高质量的伦理咨询和情感支持服务。
mlx-community
Granite-4.0-H-1B-8bit 是 IBM Granite 系列的小型语言模型,专门针对 Apple Silicon 芯片优化,采用 8 位量化技术,参数量为 1B,具有高效推理和低资源消耗的特点。
Wwayu
这是一个基于GLM-4.6架构的混合专家模型,使用REAP方法对专家进行了40%的均匀剪枝,参数量为218B,并转换为MLX格式的3位量化版本,适用于苹果芯片设备高效运行。
cpatonn
Qwen3-Next-80B-A3B-Instruct是通义千问团队开发的高效稀疏混合专家模型,总参数量80B,激活参数量仅3B。该模型采用创新的混合注意力机制和极低激活率的MoE架构,在保持强大性能的同时大幅提升推理效率,原生支持262K上下文长度并可扩展至1M令牌。
ggml-org
这是由Qwen/Qwen3-4B-Thinking-2507模型转换而来的GGUF格式版本,采用Q8_0量化,可与llama.cpp兼容使用。该模型具有思维链推理能力,参数量为40亿。
embeddinggemma-300M是一个经过量化优化的轻量级文本嵌入模型,基于Google的embeddinggemma架构,采用QAT(量化感知训练)和Q4_0量化技术,参数量为300M。该模型专门用于生成高质量的文本嵌入向量,支持句子相似度计算和特征提取等任务。
gguf-org
FastVLM是由苹果公司开发的轻量级视觉语言模型,参数量为5亿,支持文本生成和视觉语言理解任务。该模型提供了多种量化版本,可通过gguf-connector工具便捷运行。
calcuis
FastVLM-0.5B是苹果公司开发的高效视觉语言模型,参数量为5亿,通过GGUF格式优化,可在资源受限环境中实现快速的文本生成和视觉语言理解任务。
OpenGVLab
InternVL3.5-1B是InternVL系列的开源多模态模型,参数量为1.1B,包含0.3B视觉参数和0.8B语言参数。该模型显著提升了通用性、推理能力和推理效率,支持GUI交互等新功能。
Jackmin108
GLM-4.5-Air是智谱AI推出的适用于智能体的基础模型,采用紧凑设计,统一了推理、编码和智能体能力,能满足智能体应用的复杂需求。该模型参数量适中且效率优越,已开源多种版本,可用于商业和二次开发。
lmstudio-community
Seed-OSS-36B-Instruct是由ByteDance-Seed开发的大型语言模型,参数量达360亿,采用Apache-2.0开源许可证。该模型基于transformers库构建,支持vllm和mlx技术优化,特别针对苹果Silicon芯片进行了8位量化处理,提供高效的文本生成能力。
dnakov
Seed-OSS-36B-Instruct是由ByteDance开发的大规模语言模型,参数量达360亿,专注于文本生成任务。该模型基于MLX框架实现,支持中英文双语,具备强大的指令跟随和文本生成能力。
istupakov
NVIDIA Parakeet TDT 0.6B V3是一个多语言自动语音识别模型,参数量为6亿,支持包括英语、西班牙语、法语、德语等25种欧洲语言,可将语音转换为文本。
fredzzp
Open-DCoder 0.5B 是一个基于Qwen2架构的代码生成掩码扩散模型,参数量为5亿。该模型采用双向注意力机制和创新的扩散生成方法,专门用于代码生成任务。
minpeter
这是一个基于transformers库开发的多语言基础模型,特别针对韩语进行了优化。模型参数量为1.87亿,采用Apache-2.0开源许可证发布。
prithivMLmods
Qwen3代码推理是一个参数量为40亿的紧凑型模型,在nvidia/OpenCodeReasoning上进行了微调,专门为编码和逻辑推理任务而设计。该模型在代码生成和逻辑问答方面表现出色,支持超过10000个标记的上下文窗口。
kshitijthakkar
LoggenixMoE133M是一款轻量级混合专家(MoE)因果语言模型,总参数量133M,活跃参数量80M。该模型在包含根因分析、代码生成和推理任务的自定义数据集上从头训练,支持智能体能力特殊标记,适合边缘设备部署和专业AI智能体构建。
Eric1227
基于Llama 3.2架构的混合专家模型,包含8个专家,每个专家4B参数,总参数量约21B,支持128k上下文长度,经过专门微调优化的文本生成模型
suayptalha
这是一个基于Qwen3的混合专家模型(MoE),总参数量为24亿,包含4个6亿参数的专家模型,旨在以更高效率和更低内存占用提供更准确的结果。
MCP TAVILY SEARCH是一个基于Model Context Protocol (MCP)的服务,提供通过Tavily进行搜索的功能。支持快速安装和配置,可通过命令行或Docker运行,并提供调试工具。主要功能包括新闻搜索,支持关键词、时间范围、数量限制等参数配置。