智谱AI开源模型GLM-4.7-Flash发布两周,在Hugging Face下载量突破100万。这款30B-A3B混合思考模型性能强劲,在SWE-bench Verified和τ²-Bench等测试中,综合表现超越gpt-oss-20b及Qwen3-30B-A3B-Thinking-2507,在同尺寸模型中领先。
智谱AI因GLM-4.7上线后用户激增导致算力紧张,宣布对GLM Coding Plan限量发售以保障存量用户体验。高峰期并发限流,显示国产大模型需求旺盛。
智谱AI开源最新“混合思考”模型GLM-4.4-Flash,采用30B-A3B MoE架构,总参数量300亿,实际激活约30亿参数。该模型在保持轻量化部署优势的同时,凭借卓越推理与编码能力,登顶同类规格模型性能榜首,成为30B级别中的“全能王者”。
智谱科技GLM-4.7模型在WebDev榜单超越GPT-5.2,成为开源大模型第一,被赞为“Claude Code最佳平替”。其卓越的编程能力和灵活性引发网友实测热潮。智谱团队在AMA活动中分享了模型的技术进步细节。
强大的语言模型,支持多种自然语言处理任务。
端到端中英语音对话模型
国际领先的语言理解与长文本处理大模型。
开源多模态预训练模型,具备中英双语对话能力。
Chatglm
-
输入tokens/百万
输出tokens/百万
128
上下文长度
$8
$16
$2
8
1k
$100
noctrex
INTELLECT-3 是一个由 Prime Intellect 开发的、参数规模达 106B(激活参数 12B)的混合专家(MoE)推理模型。它基于 GLM-4.5-Air-Base 进行监督微调,并经过大规模强化学习训练,在数学、编码和推理任务上表现优异。
bartowski
这是ArliAI的GLM-4.5-Air-Derestricted模型的GGUF量化版本,使用llama.cpp和imatrix技术进行优化量化处理,提供多种量化级别选择,适用于不同硬件配置和性能需求。
nightmedia
这是一个实验性的量化大语言模型,采用Deckard(qx)量化方法,嵌入层为3位量化。该模型通过范数保持双投影消除(NPBA)技术重构,不仅移除了安全限制机制,还增强了模型的认知深度和推理能力。
GLM-4.5-Air-REAP-82B-A12B-mxfp4-mlx是基于GLM-4.5-Air模型通过REAP方法压缩的82B参数大语言模型,采用MXFP4量化格式,专为Mac设备优化,在保持核心任务性能的同时显著减少内存占用。
mratsim
GLM-4.5-Iceblink-v2-106B-A12B-FP8是基于GLM-4.5-Iceblink-v2-106B-A12B模型,采用最先进的混合专家量化方法进行FP8量化的版本。该模型专门针对支持硬件FP8的Ada、Hopper或Blackwell系列GPU优化,在保持高质量输出的同时显著提升推理效率。
cyankiwi
GLM-4.6 AWQ - INT4是GLM-4.6模型的4位量化版本,采用AWQ量化方法,在保持模型性能的同时显著减少了存储和计算资源需求。该模型支持200K上下文长度,在编码、推理和智能体任务方面相比GLM-4.5有显著提升。
Wwayu
这是一个基于GLM-4.6架构的混合专家模型,使用REAP方法对专家进行了40%的均匀剪枝,参数量为218B,并转换为MLX格式的3位量化版本,适用于苹果芯片设备高效运行。
这是GLM-4.5-Air-REAP-82B-A12B模型的MXFP4_MOE量化版本,专门针对文本生成任务进行了优化。该模型基于cerebras的GLM-4.5-Air-REAP-82B-A12B基础模型,通过MXFP4混合专家量化技术实现,在保持性能的同时显著减小模型体积和推理成本。
gghfez
这是GLM-4.6-REAP-266B-A32B模型的Q4_K_M gguf量化版本,基于transformers库构建,具有文本生成能力。该模型使用了REAP(路由加权专家激活剪枝)方法,能够选择性地移除冗余专家,同时保留路由器对剩余专家的独立控制。
这是GLM-4.6-REAP-266B-A32B模型的Q2_K_M gguf量化版本,基于REAP(路由器加权专家激活剪枝)方法创建,能够在保留路由器对剩余专家独立控制的同时,选择性移除冗余专家,实现高效的文本生成。
manasmisra
该模型是基于GLM-4.5-Air使用REAP方法进行25%均匀剪枝后的专家混合模型,已转换为MLX格式的4位量化版本,适用于苹果芯片设备的高效推理。
Daemontatox
Zirel-3是基于GLM-4.5-Air-REAP-82B-A12B的特定微调模型,采用REAP(路由加权专家激活剪枝)技术压缩的820亿参数混合专家模型,在保持高性能的同时显著减少模型体积。
基于GLM-4.5-Air模型使用REAP方法进行25%专家剪枝的优化版本,转换为MLX格式以便在Apple Silicon设备上高效运行
cerebras
GLM-4.5-Air-REAP-82B-A12B 是 GLM-4.5-Air 的高效压缩版本,通过 REAP 剪枝技术将参数规模从 106B 压缩到 82B,减少 25% 内存需求,同时保持近乎无损的性能表现。
本项目为 GLM-4.6 模型提供了创意写作控制向量,通过控制向量技术调节模型在特定维度上的表现,如诚实度与马基雅维利主义倾向、沟通风格等。
mlx-community
这是一个基于GLM-4.6模型转换的MLX格式版本,采用8位量化技术,分组大小为32,专为苹果芯片优化,提供高效的文本生成功能。
anikifoss
GLM-4.6的高质量量化版本,采用先进的量化技术在不使用imatrix的情况下实现,保持了良好的模型性能和兼容性,适用于对话等多种应用场景。
bullpoint
GLM-4.6-AWQ是对智谱AI的GLM-4.6(357B MoE)进行高性能AWQ量化的模型,专为vLLM推理进行了优化,能有效提升生产部署的吞吐量。该模型采用4位量化技术,在保持高精度的同时显著减少显存占用。
QuantTrio
GLM-4.6-GPTQ-Int4-Int8Mix是基于zai-org/GLM-4.6基础模型的量化版本,在文本生成任务上表现出色。该模型通过GPTQ量化技术实现了模型大小的优化,同时保持了良好的性能表现。
DevQuasar
本项目提供了zai-org/GLM-4.6的量化版本,旨在让知识为每个人所用。这是一个文本生成模型,基于原始GLM-4.6模型进行优化,提供更高效的推理性能。
GLM-4.6 MCP服务器是一个企业级架构咨询协议桥接服务,通过模型上下文协议连接Claude 4.5 Sonnet和GLM-4.6,提供系统设计、可扩展性模式和技术决策支持,支持代码架构分析、系统架构设计和决策审查等功能。
基于GLM-4.5V模型的MCP服务器,提供智能图片分析功能,支持从文件路径或剪贴板获取图片,专门用于代码内容提取、架构分析、错误检测和文档生成。
一个集成GLM-4.5V视觉能力的MCP服务器,支持本地图片和URL分析,通过Claude Code提供图像分析功能
GLM-4.5V多模态服务器,提供图像处理、视觉查询和文件处理功能