LMArena最新AI编程模型排名显示,Anthropic的Claude、OpenAI的GPT-5与智谱GLM-4.6并列全球第一。这些专为编程设计的模型能显著提升代码编写、调试和优化效率,推动软件开发进步。
智谱发布GLM-4.6模型,采用寒武纪国产芯片,首次实现FP8+Int4混合量化部署。该技术突破在保持模型精度的同时显著降低推理成本,为国产芯片支持大模型本地化运行开辟新路径。
智谱AI发布并开源新一代模型GLM-4.6,在Agentic Coding等关键能力上实现大幅提升。其编程能力已对齐国际顶尖模型Claude Sonnet4,并超越DeepSeek-V3.2-Exp,成为当前国内最强代码生成模型。该模型在国产化适配方面取得里程碑进展,已成功部署于寒武纪国产芯片平台。
智谱推出Claude Code专属包月套餐,月费仅20元,适用于GLM-4.5及GLM-4.5-Air模型。用户可通过扫描海报二维码或访问bigmodel.cn购买,享受便捷编程服务。
强大的语言模型,支持多种自然语言处理任务。
端到端中英语音对话模型
国际领先的语言理解与长文本处理大模型。
开源多模态预训练模型,具备中英双语对话能力。
Chatglm
-
输入tokens/百万
输出tokens/百万
128
上下文长度
$8
$16
$2
8
1k
$100
bartowski
这是ArliAI的GLM-4.5-Air-Derestricted模型的GGUF量化版本,使用llama.cpp和imatrix技术进行优化量化处理,提供多种量化级别选择,适用于不同硬件配置和性能需求。
nightmedia
这是一个实验性的量化大语言模型,采用Deckard(qx)量化方法,嵌入层为3位量化。该模型通过范数保持双投影消除(NPBA)技术重构,不仅移除了安全限制机制,还增强了模型的认知深度和推理能力。
GLM-4.5-Air-REAP-82B-A12B-mxfp4-mlx是基于GLM-4.5-Air模型通过REAP方法压缩的82B参数大语言模型,采用MXFP4量化格式,专为Mac设备优化,在保持核心任务性能的同时显著减少内存占用。
mratsim
GLM-4.5-Iceblink-v2-106B-A12B-FP8是基于GLM-4.5-Iceblink-v2-106B-A12B模型,采用最先进的混合专家量化方法进行FP8量化的版本。该模型专门针对支持硬件FP8的Ada、Hopper或Blackwell系列GPU优化,在保持高质量输出的同时显著提升推理效率。
cyankiwi
GLM-4.6 AWQ - INT4是GLM-4.6模型的4位量化版本,采用AWQ量化方法,在保持模型性能的同时显著减少了存储和计算资源需求。该模型支持200K上下文长度,在编码、推理和智能体任务方面相比GLM-4.5有显著提升。
Wwayu
这是一个基于GLM-4.6架构的混合专家模型,使用REAP方法对专家进行了40%的均匀剪枝,参数量为218B,并转换为MLX格式的3位量化版本,适用于苹果芯片设备高效运行。
noctrex
这是GLM-4.5-Air-REAP-82B-A12B模型的MXFP4_MOE量化版本,专门针对文本生成任务进行了优化。该模型基于cerebras的GLM-4.5-Air-REAP-82B-A12B基础模型,通过MXFP4混合专家量化技术实现,在保持性能的同时显著减小模型体积和推理成本。
gghfez
这是GLM-4.6-REAP-266B-A32B模型的Q4_K_M gguf量化版本,基于transformers库构建,具有文本生成能力。该模型使用了REAP(路由加权专家激活剪枝)方法,能够选择性地移除冗余专家,同时保留路由器对剩余专家的独立控制。
这是GLM-4.6-REAP-266B-A32B模型的Q2_K_M gguf量化版本,基于REAP(路由器加权专家激活剪枝)方法创建,能够在保留路由器对剩余专家独立控制的同时,选择性移除冗余专家,实现高效的文本生成。
manasmisra
该模型是基于GLM-4.5-Air使用REAP方法进行25%均匀剪枝后的专家混合模型,已转换为MLX格式的4位量化版本,适用于苹果芯片设备的高效推理。
Daemontatox
Zirel-3是基于GLM-4.5-Air-REAP-82B-A12B的特定微调模型,采用REAP(路由加权专家激活剪枝)技术压缩的820亿参数混合专家模型,在保持高性能的同时显著减少模型体积。
基于GLM-4.5-Air模型使用REAP方法进行25%专家剪枝的优化版本,转换为MLX格式以便在Apple Silicon设备上高效运行
cerebras
GLM-4.5-Air-REAP-82B-A12B 是 GLM-4.5-Air 的高效压缩版本,通过 REAP 剪枝技术将参数规模从 106B 压缩到 82B,减少 25% 内存需求,同时保持近乎无损的性能表现。
本项目为 GLM-4.6 模型提供了创意写作控制向量,通过控制向量技术调节模型在特定维度上的表现,如诚实度与马基雅维利主义倾向、沟通风格等。
mlx-community
这是一个基于GLM-4.6模型转换的MLX格式版本,采用8位量化技术,分组大小为32,专为苹果芯片优化,提供高效的文本生成功能。
anikifoss
GLM-4.6的高质量量化版本,采用先进的量化技术在不使用imatrix的情况下实现,保持了良好的模型性能和兼容性,适用于对话等多种应用场景。
bullpoint
GLM-4.6-AWQ是对智谱AI的GLM-4.6(357B MoE)进行高性能AWQ量化的模型,专为vLLM推理进行了优化,能有效提升生产部署的吞吐量。该模型采用4位量化技术,在保持高精度的同时显著减少显存占用。
QuantTrio
GLM-4.6-GPTQ-Int4-Int8Mix是基于zai-org/GLM-4.6基础模型的量化版本,在文本生成任务上表现出色。该模型通过GPTQ量化技术实现了模型大小的优化,同时保持了良好的性能表现。
DevQuasar
本项目提供了zai-org/GLM-4.6的量化版本,旨在让知识为每个人所用。这是一个文本生成模型,基于原始GLM-4.6模型进行优化,提供更高效的推理性能。
ubergarm
基于ik_llama.cpp分支优化的GLM-4.6量化版本,采用先进的IQ量化技术,在保持高质量输出的同时显著减少内存占用。该系列包含多种量化级别,从IQ5_K到IQ1_KT,满足不同硬件环境下的推理需求。
GLM-4.6 MCP服务器是一个企业级架构咨询协议桥接服务,通过模型上下文协议连接Claude 4.5 Sonnet和GLM-4.6,提供系统设计、可扩展性模式和技术决策支持,支持代码架构分析、系统架构设计和决策审查等功能。
基于GLM-4.5V模型的MCP服务器,提供智能图片分析功能,支持从文件路径或剪贴板获取图片,专门用于代码内容提取、架构分析、错误检测和文档生成。
一个集成GLM-4.5V视觉能力的MCP服务器,支持本地图片和URL分析,通过Claude Code提供图像分析功能
GLM-4.5V多模态服务器,提供图像处理、视觉查询和文件处理功能