智譜AI開源模型GLM-4.7-Flash發佈兩週,在Hugging Face下載量突破100萬。這款30B-A3B混合思考模型性能強勁,在SWE-bench Verified和τ²-Bench等測試中,綜合表現超越gpt-oss-20b及Qwen3-30B-A3B-Thinking-2507,在同尺寸模型中領先。
智譜AI因GLM-4.7上線後用戶激增導致算力緊張,宣佈對GLM Coding Plan限量發售以保障存量用戶體驗。高峯期併發限流,顯示國產大模型需求旺盛。
智譜AI開源最新“混合思考”模型GLM-4.4-Flash,採用30B-A3B MoE架構,總參數量300億,實際激活約30億參數。該模型在保持輕量化部署優勢的同時,憑藉卓越推理與編碼能力,登頂同類規格模型性能榜首,成爲30B級別中的“全能王者”。
智譜科技GLM-4.7模型在WebDev榜單超越GPT-5.2,成爲開源大模型第一,被贊爲“Claude Code最佳平替”。其卓越的編程能力和靈活性引發網友實測熱潮。智譜團隊在AMA活動中分享了模型的技術進步細節。
強大的語言模型,支持多種自然語言處理任務。
端到端中英語音對話模型
國際領先的語言理解與長文本處理大模型。
開源多模態預訓練模型,具備中英雙語對話能力。
Chatglm
-
輸入tokens/百萬
輸出tokens/百萬
128
上下文長度
$8
$16
$2
8
$100
1k
bartowski
這是ArliAI的GLM-4.5-Air-Derestricted模型的GGUF量化版本,使用llama.cpp和imatrix技術進行優化量化處理,提供多種量化級別選擇,適用於不同硬件配置和性能需求。
nightmedia
這是一個實驗性的量化大語言模型,採用Deckard(qx)量化方法,嵌入層為3位量化。該模型通過範數保持雙投影消除(NPBA)技術重構,不僅移除了安全限制機制,還增強了模型的認知深度和推理能力。
GLM-4.5-Air-REAP-82B-A12B-mxfp4-mlx是基於GLM-4.5-Air模型通過REAP方法壓縮的82B參數大語言模型,採用MXFP4量化格式,專為Mac設備優化,在保持核心任務性能的同時顯著減少內存佔用。
mratsim
GLM-4.5-Iceblink-v2-106B-A12B-FP8是基於GLM-4.5-Iceblink-v2-106B-A12B模型,採用最先進的混合專家量化方法進行FP8量化的版本。該模型專門針對支持硬件FP8的Ada、Hopper或Blackwell系列GPU優化,在保持高質量輸出的同時顯著提升推理效率。
cyankiwi
GLM-4.6 AWQ - INT4是GLM-4.6模型的4位量化版本,採用AWQ量化方法,在保持模型性能的同時顯著減少了存儲和計算資源需求。該模型支持200K上下文長度,在編碼、推理和智能體任務方面相比GLM-4.5有顯著提升。
Wwayu
這是一個基於GLM-4.6架構的混合專家模型,使用REAP方法對專家進行了40%的均勻剪枝,參數量為218B,並轉換為MLX格式的3位量化版本,適用於蘋果芯片設備高效運行。
noctrex
這是GLM-4.5-Air-REAP-82B-A12B模型的MXFP4_MOE量化版本,專門針對文本生成任務進行了優化。該模型基於cerebras的GLM-4.5-Air-REAP-82B-A12B基礎模型,通過MXFP4混合專家量化技術實現,在保持性能的同時顯著減小模型體積和推理成本。
gghfez
這是GLM-4.6-REAP-266B-A32B模型的Q4_K_M gguf量化版本,基於transformers庫構建,具有文本生成能力。該模型使用了REAP(路由加權專家激活剪枝)方法,能夠選擇性地移除冗餘專家,同時保留路由器對剩餘專家的獨立控制。
這是GLM-4.6-REAP-266B-A32B模型的Q2_K_M gguf量化版本,基於REAP(路由器加權專家激活剪枝)方法創建,能夠在保留路由器對剩餘專家獨立控制的同時,選擇性移除冗餘專家,實現高效的文本生成。
manasmisra
該模型是基於GLM-4.5-Air使用REAP方法進行25%均勻剪枝後的專家混合模型,已轉換為MLX格式的4位量化版本,適用於蘋果芯片設備的高效推理。
Daemontatox
Zirel-3是基於GLM-4.5-Air-REAP-82B-A12B的特定微調模型,採用REAP(路由加權專家激活剪枝)技術壓縮的820億參數混合專家模型,在保持高性能的同時顯著減少模型體積。
基於GLM-4.5-Air模型使用REAP方法進行25%專家剪枝的優化版本,轉換為MLX格式以便在Apple Silicon設備上高效運行
cerebras
GLM-4.5-Air-REAP-82B-A12B 是 GLM-4.5-Air 的高效壓縮版本,通過 REAP 剪枝技術將參數規模從 106B 壓縮到 82B,減少 25% 內存需求,同時保持近乎無損的性能表現。
本項目為 GLM-4.6 模型提供了創意寫作控制向量,通過控制向量技術調節模型在特定維度上的表現,如誠實度與馬基雅維利主義傾向、溝通風格等。
mlx-community
這是一個基於GLM-4.6模型轉換的MLX格式版本,採用8位量化技術,分組大小為32,專為蘋果芯片優化,提供高效的文本生成功能。
anikifoss
GLM-4.6的高質量量化版本,採用先進的量化技術在不使用imatrix的情況下實現,保持了良好的模型性能和兼容性,適用於對話等多種應用場景。
bullpoint
GLM-4.6-AWQ是對智譜AI的GLM-4.6(357B MoE)進行高性能AWQ量化的模型,專為vLLM推理進行了優化,能有效提升生產部署的吞吐量。該模型採用4位量化技術,在保持高精度的同時顯著減少顯存佔用。
QuantTrio
GLM-4.6-GPTQ-Int4-Int8Mix是基於zai-org/GLM-4.6基礎模型的量化版本,在文本生成任務上表現出色。該模型通過GPTQ量化技術實現了模型大小的優化,同時保持了良好的性能表現。
DevQuasar
本項目提供了zai-org/GLM-4.6的量化版本,旨在讓知識為每個人所用。這是一個文本生成模型,基於原始GLM-4.6模型進行優化,提供更高效的推理性能。
ubergarm
基於ik_llama.cpp分支優化的GLM-4.6量化版本,採用先進的IQ量化技術,在保持高質量輸出的同時顯著減少內存佔用。該系列包含多種量化級別,從IQ5_K到IQ1_KT,滿足不同硬件環境下的推理需求。
基於GLM-4.5V模型的MCP服務器,提供智能圖片分析功能,支持從文件路徑或剪貼板獲取圖片,專門用於代碼內容提取、架構分析、錯誤檢測和文檔生成。
GLM-4.6 MCP服務器是一個企業級架構諮詢協議橋接服務,通過模型上下文協議連接Claude 4.5 Sonnet和GLM-4.6,提供系統設計、可擴展性模式和技術決策支持,支持代碼架構分析、系統架構設計和決策審查等功能。
一個集成GLM-4.5V視覺能力的MCP服務器,支持本地圖片和URL分析,通過Claude Code提供圖像分析功能
GLM-4.5V多模態服務器,提供圖像處理、視覺查詢和文件處理功能