智谱AI因GLM-4.7上线后用户激增导致算力紧张,宣布对GLM Coding Plan限量发售以保障存量用户体验。高峰期并发限流,显示国产大模型需求旺盛。
智谱AI开源最新“混合思考”模型GLM-4.4-Flash,采用30B-A3B MoE架构,总参数量300亿,实际激活约30亿参数。该模型在保持轻量化部署优势的同时,凭借卓越推理与编码能力,登顶同类规格模型性能榜首,成为30B级别中的“全能王者”。
智谱联合华为开源图像生成模型GLM-Image,这是首个在国产芯片上完成全流程训练的SOTA多模态模型。其创新采用“自回归+扩散解码器”混合架构,实现了图像生成与语言模型的深度融合,在知识密集型任务中表现出色,能精准理解全局指令。
智谱AI与华为联合开源新一代图像生成大模型GLM-Image,性能达国际领先水平。该模型全程基于国产昇腾AI芯片与昇思框架构建,从数据处理到推理全流程实现国产化,摆脱对国外软硬件的依赖,验证了国产技术支撑尖端AI研发的能力。
GLM-PC是基于CogAgent视觉语言大模型构建的电脑智能体,旨在提升电脑使用体验。
为GPT/GLM等LLM大语言模型提供实用化交互接口
GLM-4和CogView3,智能大模型与图像生成AI
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
Baidu
128
$2
$20
$6
$24
bartowski
这是ArliAI的GLM-4.5-Air-Derestricted模型的GGUF量化版本,使用llama.cpp和imatrix技术进行优化量化处理,提供多种量化级别选择,适用于不同硬件配置和性能需求。
nightmedia
GLM-4.5-Air-REAP-82B-A12B-mxfp4-mlx是基于GLM-4.5-Air模型通过REAP方法压缩的82B参数大语言模型,采用MXFP4量化格式,专为Mac设备优化,在保持核心任务性能的同时显著减少内存占用。
mratsim
GLM-4.5-Iceblink-v2-106B-A12B-FP8是基于GLM-4.5-Iceblink-v2-106B-A12B模型,采用最先进的混合专家量化方法进行FP8量化的版本。该模型专门针对支持硬件FP8的Ada、Hopper或Blackwell系列GPU优化,在保持高质量输出的同时显著提升推理效率。
这是一个基于REAP方法对MiniMax-M2中40%专家进行均匀剪枝得到的139B参数大语言模型,采用GLM架构和专家混合(MoE)技术,通过llama.cpp进行多种量化处理,适用于文本生成任务。
cyankiwi
GLM-4.6 AWQ - INT4是GLM-4.6模型的4位量化版本,采用AWQ量化方法,在保持模型性能的同时显著减少了存储和计算资源需求。该模型支持200K上下文长度,在编码、推理和智能体任务方面相比GLM-4.5有显著提升。
Wwayu
这是一个基于GLM-4.6架构的混合专家模型,使用REAP方法对专家进行了40%的均匀剪枝,参数量为218B,并转换为MLX格式的3位量化版本,适用于苹果芯片设备高效运行。
noctrex
这是GLM-4.5-Air-REAP-82B-A12B模型的MXFP4_MOE量化版本,专门针对文本生成任务进行了优化。该模型基于cerebras的GLM-4.5-Air-REAP-82B-A12B基础模型,通过MXFP4混合专家量化技术实现,在保持性能的同时显著减小模型体积和推理成本。
gghfez
这是GLM-4.6-REAP-266B-A32B模型的Q4_K_M gguf量化版本,基于transformers库构建,具有文本生成能力。该模型使用了REAP(路由加权专家激活剪枝)方法,能够选择性地移除冗余专家,同时保留路由器对剩余专家的独立控制。
这是GLM-4.6-REAP-266B-A32B模型的Q2_K_M gguf量化版本,基于REAP(路由器加权专家激活剪枝)方法创建,能够在保留路由器对剩余专家独立控制的同时,选择性移除冗余专家,实现高效的文本生成。
manasmisra
该模型是基于GLM-4.5-Air使用REAP方法进行25%均匀剪枝后的专家混合模型,已转换为MLX格式的4位量化版本,适用于苹果芯片设备的高效推理。
Daemontatox
Zirel-3是基于GLM-4.5-Air-REAP-82B-A12B的特定微调模型,采用REAP(路由加权专家激活剪枝)技术压缩的820亿参数混合专家模型,在保持高性能的同时显著减少模型体积。
基于GLM-4.5-Air模型使用REAP方法进行25%专家剪枝的优化版本,转换为MLX格式以便在Apple Silicon设备上高效运行
本项目为 GLM-4.6 模型提供了创意写作控制向量,通过控制向量技术调节模型在特定维度上的表现,如诚实度与马基雅维利主义倾向、沟通风格等。
mlx-community
这是一个基于GLM-4.6模型转换的MLX格式版本,采用8位量化技术,分组大小为32,专为苹果芯片优化,提供高效的文本生成功能。
anikifoss
GLM-4.6的高质量量化版本,采用先进的量化技术在不使用imatrix的情况下实现,保持了良好的模型性能和兼容性,适用于对话等多种应用场景。
bullpoint
GLM-4.6-AWQ是对智谱AI的GLM-4.6(357B MoE)进行高性能AWQ量化的模型,专为vLLM推理进行了优化,能有效提升生产部署的吞吐量。该模型采用4位量化技术,在保持高精度的同时显著减少显存占用。
QuantTrio
GLM-4.6-GPTQ-Int4-Int8Mix是基于zai-org/GLM-4.6基础模型的量化版本,在文本生成任务上表现出色。该模型通过GPTQ量化技术实现了模型大小的优化,同时保持了良好的性能表现。
DevQuasar
本项目提供了zai-org/GLM-4.6的量化版本,旨在让知识为每个人所用。这是一个文本生成模型,基于原始GLM-4.6模型进行优化,提供更高效的推理性能。
GLM-4.6-AWQ是基于zai-org/GLM-4.6基础模型的量化版本,具备高效的文本生成能力。相比GLM-4.5,该模型在上下文窗口、编码性能、推理能力和智能体功能等方面都有显著提升。
Downtown-Case
GLM 4.6是一款专为128GB内存+单GPU配置优化的量化模型,采用IQ_K量化方式,相比主流llama.cpp在相同大小下提供更好的质量和性能。该模型需要配合ik_llama.cpp使用,在128GB双通道DDR5内存、单CCD Ryzen 7000处理器+单张3090显卡配置下,文本生成速度可达每秒约6.8个token。
GLM-4.6 MCP服务器是一个企业级架构咨询协议桥接服务,通过模型上下文协议连接Claude 4.5 Sonnet和GLM-4.6,提供系统设计、可扩展性模式和技术决策支持,支持代码架构分析、系统架构设计和决策审查等功能。
基于GLM-4.5V模型的MCP服务器,提供智能图片分析功能,支持从文件路径或剪贴板获取图片,专门用于代码内容提取、架构分析、错误检测和文档生成。