騰訊雲宣佈將於2025年11月24日下線DeepSeek-V3和DeepSeek-R1模型,屆時停止所有接入服務。官方建議用戶遷移至最新穩定版本,以配合大模型技術持續升級。
騰訊發佈Training-Free GRPO技術,通過外部知識庫替代參數微調,在模型參數凍結狀態下實現性能優化。該方法將經驗知識轉化爲token級先驗信息,顯著降低訓練成本,在DeepSeek-V3.1-Terminus模型上達到與昂貴微調相當的提升效果。
硅基流動發佈實驗性模型DeepSeek-V3.2-Exp,支持160K上下文長度,價格直降超50%。該模型基於V3.1-Terminus深度優化,引入DeepSeek稀疏注意力機制,顯著提升長文本訓練和推理效率。
智譜AI發佈並開源新一代模型GLM-4.6,在Agentic Coding等關鍵能力上實現大幅提升。其編程能力已對齊國際頂尖模型Claude Sonnet4,並超越DeepSeek-V3.2-Exp,成爲當前國內最強代碼生成模型。該模型在國產化適配方面取得里程碑進展,已成功部署於寒武紀國產芯片平臺。
一個強大的文本生成模型,適用於多種對話應用。
DeepSeek-V3/R1 推理系統是一個高性能的分佈式推理架構,專為大規模 AI 模型優化設計。
一個開源的NotebookLM實現,使用Deepseek-V3和PlayHT TTS技術。
一款具有671B參數的Mixture-of-Experts語言模型。
deepseek
$3.96
輸入tokens/百萬
$15.77
輸出tokens/百萬
128k
上下文長度
$0.86
$1.3
-
$0.72
$2.88
$1.94
$7.92
4.1k
moxin-org
本項目對DeepSeek-V3-0324進行了llama.cpp混合精度量化,解決了模型在邊緣設備上部署的難題,提升了模型的運行效率和資源利用率。
kathywu95
這是一個基於DeepSeek-V3架構的隨機權重生成模型,專門用於測試和開發目的。模型使用隨機初始化的權重,參數規模經過精簡,適合快速原型開發和功能驗證。
QuantTrio
DeepSeek-V3.2-Exp-AWQ是基於DeepSeek-V3.2-Exp模型的量化版本,通過vLLM框架實現高效文本生成。該模型引入了DeepSeek稀疏注意力機制,在長上下文訓練和推理效率上有顯著提升,同時保持了模型輸出質量。
deepseek-ai
變換器庫是一個強大的自然語言處理工具庫,提供豐富的預訓練模型和便捷的使用接口,廣泛應用於文本生成、分類、翻譯等NLP任務,極大提升開發效率。
DeepSeek-V3.1是基於DeepSeek-V3.1-Base進行後訓練的大型語言模型,具有128K上下文長度,支持混合思維模式、智能工具調用和代碼代理功能。該模型在多項基準測試中表現出色,特別在數學推理、代碼生成和搜索代理任務上有顯著提升。
ubergarm
基於DeepSeek-V3.1模型的GGUF格式量化版本,使用ik_llama.cpp分支進行最優量化。該模型在特定內存佔用下實現最佳困惑度表現,提供從IQ5_K到IQ1_S等多種量化方案,滿足不同內存和性能需求。
bartowski
這是DeepSeek-V3.1模型的量化版本,使用llama.cpp的imatrix技術進行量化處理,旨在提升模型在不同硬件上的運行效率和性能。該版本提供多種量化級別,從高質量Q8_0到極低質量IQ1_M,滿足不同硬件配置和性能需求。
unsloth
DeepSeek-V3.1是DeepSeek-AI開發的大語言模型,是DeepSeek-V3的升級版本。該模型支持混合思考模式和非思考模式,在工具調用、代碼生成、數學推理等方面表現出色,支持128K上下文長度。
mlx-community
這是DeepSeek-V3.1-Base模型的4位量化版本,使用mlx-lm工具轉換而成,專門為Apple Silicon芯片優化,提供高效的大語言模型推理能力。
DeepSeek-V3.1是DeepSeek團隊開發的大規模語言模型,支持思考模式和非思考模式,在多個基準測試中表現出色,具備強大的文本理解、生成和推理能力。
bobchenyx
這是DeepSeek-V3-0324的量化版本,採用特定量化方法處理,旨在不同場景下實現更高效的使用,支持多種量化規格以平衡性能與效率。
tngtech
DeepSeek-R1T-Chimera 是一個結合了 DeepSeek-R1 智能和 DeepSeek-V3 令牌效率的開源權重模型。
GLM-4-32B-0414是GLM家族的新成員,具備320億參數規模,性能媲美GPT系列和DeepSeek-V3系列,支持本地部署。
GLM-4-32B-0414是擁有320億參數的大語言模型,性能媲美GPT-4o和DeepSeek-V3,支持中文和英語,具備卓越的代碼生成、函數調用和複雜任務處理能力。
GLM-4-32B-0414是GLM家族的新成員,參數規模達320億,性能與GPT-4o、DeepSeek-V3等相當,支持本地部署。
DeepSeek-V3-0324 是由 Unsloth 提供的動態量化版本,支持在 llama.cpp、LMStudio 等推理框架中運行。
ByteDance-Seed
基於DeepSeek-V3架構的90億參數大語言模型,使用完全開源且僅含英文的3500億+token數據集從頭訓練而成,專為開源社區開發和調試設計。
AlphaGaO
這是一個未經過完整訓練的實驗性模型,主要用於研究目的,通過模型融合技術創建,需要特定修復流程才能恢復正常功能。
zai-org
GLM-4-32B-Base-0414是GLM家族的新成員,擁有320億參數,在15T高質量數據上進行預訓練,性能可與GPT-4o和DeepSeek-V3等先進模型相媲美。該模型支持便捷的本地部署,在代碼生成、函數調用、搜索式問答等方面表現優異。
GLM-4-32B-0414是GLM家族的新成員,擁有320億參數的高性能大語言模型。該模型在15T高質量數據上進行預訓練,包含大量推理型合成數據,在代碼生成、函數調用、搜索問答等多個任務場景中表現出色,性能可與GPT-4o和DeepSeek-V3等更大規模模型相媲美。
一個基於DeepSeek-V3開發的MCP天氣查詢智能體項目,通過配置API密鑰和運行客戶端腳本來實現功能。
一個使用DeepSeek-V3模型的MCP演示項目,通過命令行交互查詢天氣信息,支持獲取警報和天氣預報功能。