DeepSeek-V3.2正式版與極致推理版同步發佈,支持網頁端、App、API一鍵切換,性能再證“開源最強”。最大亮點是首次實現“思考過程”與“工具調用”深度融合,支持兩種模式並行:思考模式可進行長鏈條推理,工具調用模式則能高效執行任務。
12月1日,中國AI公司深度求索發佈DeepSeek-V3.2系列模型,包括標準版和高計算增強版。該系列採用創新的稀疏注意力機制(DSA),首次實現細粒度稀疏注意力,有效降低長文本處理的計算成本。模型強化了Agent能力,旨在挑戰GPT-5和Gemini 3.0 Pro等全球頂級AI模型。
DeepSeek發佈全球首個開源數學推理大模型DeepSeek-Math-V2,擁有6850億參數,達到國際數學奧賽金牌水平。該模型基於DeepSeek-V3.2架構,採用Apache2.0協議開源,其核心突破是創新的“生成-驗證”雙模型閉環機制,顯著提升了數學推理能力。
騰訊雲宣佈將於2025年11月24日下線DeepSeek-V3和DeepSeek-R1模型,屆時停止所有接入服務。官方建議用戶遷移至最新穩定版本,以配合大模型技術持續升級。
一個強大的文本生成模型,適用於多種對話應用。
DeepSeek-V3/R1 推理系統是一個高性能的分佈式推理架構,專為大規模 AI 模型優化設計。
一個開源的NotebookLM實現,使用Deepseek-V3和PlayHT TTS技術。
一款具有671B參數的Mixture-of-Experts語言模型。
Deepseek
$4
輸入tokens/百萬
$12
輸出tokens/百萬
128
上下文長度
$16
32
$2
$8
Alibaba
-
$1.6
8
$1
Tencent
$100
moxin-org
本項目對DeepSeek-V3-0324進行了llama.cpp混合精度量化,解決了模型在邊緣設備上部署的難題,提升了模型的運行效率和資源利用率。
kathywu95
這是一個基於DeepSeek-V3架構的隨機權重生成模型,專門用於測試和開發目的。模型使用隨機初始化的權重,參數規模經過精簡,適合快速原型開發和功能驗證。
QuantTrio
DeepSeek-V3.2-Exp-AWQ是基於DeepSeek-V3.2-Exp模型的量化版本,通過vLLM框架實現高效文本生成。該模型引入了DeepSeek稀疏注意力機制,在長上下文訓練和推理效率上有顯著提升,同時保持了模型輸出質量。
deepseek-ai
變換器庫是一個強大的自然語言處理工具庫,提供豐富的預訓練模型和便捷的使用接口,廣泛應用於文本生成、分類、翻譯等NLP任務,極大提升開發效率。
DeepSeek-V3.1是基於DeepSeek-V3.1-Base進行後訓練的大型語言模型,具有128K上下文長度,支持混合思維模式、智能工具調用和代碼代理功能。該模型在多項基準測試中表現出色,特別在數學推理、代碼生成和搜索代理任務上有顯著提升。
ubergarm
基於DeepSeek-V3.1模型的GGUF格式量化版本,使用ik_llama.cpp分支進行最優量化。該模型在特定內存佔用下實現最佳困惑度表現,提供從IQ5_K到IQ1_S等多種量化方案,滿足不同內存和性能需求。
bartowski
這是DeepSeek-V3.1模型的量化版本,使用llama.cpp的imatrix技術進行量化處理,旨在提升模型在不同硬件上的運行效率和性能。該版本提供多種量化級別,從高質量Q8_0到極低質量IQ1_M,滿足不同硬件配置和性能需求。
unsloth
DeepSeek-V3.1是DeepSeek-AI開發的大語言模型,是DeepSeek-V3的升級版本。該模型支持混合思考模式和非思考模式,在工具調用、代碼生成、數學推理等方面表現出色,支持128K上下文長度。
mlx-community
這是DeepSeek-V3.1-Base模型的4位量化版本,使用mlx-lm工具轉換而成,專門為Apple Silicon芯片優化,提供高效的大語言模型推理能力。
DeepSeek-V3.1是DeepSeek團隊開發的大規模語言模型,支持思考模式和非思考模式,在多個基準測試中表現出色,具備強大的文本理解、生成和推理能力。
bobchenyx
這是DeepSeek-V3-0324的量化版本,採用特定量化方法處理,旨在不同場景下實現更高效的使用,支持多種量化規格以平衡性能與效率。
nvidia
這是DeepSeek AI的DeepSeek V3-0324模型的量化版本,採用優化的Transformer架構,通過FP4量化技術顯著減少了模型大小和GPU內存需求,適用於AI智能體系統、聊天機器人等多種AI應用場景。
tngtech
DeepSeek-R1T-Chimera 是一個結合了 DeepSeek-R1 智能和 DeepSeek-V3 令牌效率的開源權重模型。
GLM-4-32B-0414是GLM家族的新成員,具備320億參數規模,性能媲美GPT系列和DeepSeek-V3系列,支持本地部署。
GLM-4-32B-0414是擁有320億參數的大語言模型,性能媲美GPT-4o和DeepSeek-V3,支持中文和英語,具備卓越的代碼生成、函數調用和複雜任務處理能力。
GLM-4-32B-0414是GLM家族的新成員,參數規模達320億,性能與GPT-4o、DeepSeek-V3等相當,支持本地部署。
DeepSeek-V3-0324 是由 Unsloth 提供的動態量化版本,支持在 llama.cpp、LMStudio 等推理框架中運行。
ByteDance-Seed
基於DeepSeek-V3架構的90億參數大語言模型,使用完全開源且僅含英文的3500億+token數據集從頭訓練而成,專為開源社區開發和調試設計。
AlphaGaO
這是一個未經過完整訓練的實驗性模型,主要用於研究目的,通過模型融合技術創建,需要特定修復流程才能恢復正常功能。
zai-org
GLM-4-32B-Base-0414是GLM家族的新成員,擁有320億參數,在15T高質量數據上進行預訓練,性能可與GPT-4o和DeepSeek-V3等先進模型相媲美。該模型支持便捷的本地部署,在代碼生成、函數調用、搜索式問答等方面表現優異。
一個基於DeepSeek-V3開發的MCP天氣查詢智能體項目,通過配置API密鑰和運行客戶端腳本來實現功能。
一個使用DeepSeek-V3模型的MCP演示項目,通過命令行交互查詢天氣信息,支持獲取警報和天氣預報功能。