12月1日,中國AI公司深度求索發佈DeepSeek-V3.2系列模型,包括標準版和高計算增強版。該系列採用創新的稀疏注意力機制(DSA),首次實現細粒度稀疏注意力,有效降低長文本處理的計算成本。模型強化了Agent能力,旨在挑戰GPT-5和Gemini 3.0 Pro等全球頂級AI模型。
DeepSeek發佈全球首個開源數學推理大模型DeepSeek-Math-V2,擁有6850億參數,達到國際數學奧賽金牌水平。該模型基於DeepSeek-V3.2架構,採用Apache2.0協議開源,其核心突破是創新的“生成-驗證”雙模型閉環機制,顯著提升了數學推理能力。
硅基流動發佈實驗性模型DeepSeek-V3.2-Exp,支持160K上下文長度,價格直降超50%。該模型基於V3.1-Terminus深度優化,引入DeepSeek稀疏注意力機制,顯著提升長文本訓練和推理效率。
智譜AI發佈並開源新一代模型GLM-4.6,在Agentic Coding等關鍵能力上實現大幅提升。其編程能力已對齊國際頂尖模型Claude Sonnet4,並超越DeepSeek-V3.2-Exp,成爲當前國內最強代碼生成模型。該模型在國產化適配方面取得里程碑進展,已成功部署於寒武紀國產芯片平臺。
QuantTrio
DeepSeek-V3.2-Exp-AWQ是基於DeepSeek-V3.2-Exp模型的量化版本,通過vLLM框架實現高效文本生成。該模型引入了DeepSeek稀疏注意力機制,在長上下文訓練和推理效率上有顯著提升,同時保持了模型輸出質量。
deepseek-ai
變換器庫是一個強大的自然語言處理工具庫,提供豐富的預訓練模型和便捷的使用接口,廣泛應用於文本生成、分類、翻譯等NLP任務,極大提升開發效率。