12月1日,中国AI公司深度求索发布DeepSeek-V3.2系列模型,包括标准版和高计算增强版。该系列采用创新的稀疏注意力机制(DSA),首次实现细粒度稀疏注意力,有效降低长文本处理的计算成本。模型强化了Agent能力,旨在挑战GPT-5和Gemini 3.0 Pro等全球顶级AI模型。
DeepSeek发布全球首个开源数学推理大模型DeepSeek-Math-V2,拥有6850亿参数,达到国际数学奥赛金牌水平。该模型基于DeepSeek-V3.2架构,采用Apache2.0协议开源,其核心突破是创新的“生成-验证”双模型闭环机制,显著提升了数学推理能力。
硅基流动发布实验性模型DeepSeek-V3.2-Exp,支持160K上下文长度,价格直降超50%。该模型基于V3.1-Terminus深度优化,引入DeepSeek稀疏注意力机制,显著提升长文本训练和推理效率。
智谱AI发布并开源新一代模型GLM-4.6,在Agentic Coding等关键能力上实现大幅提升。其编程能力已对齐国际顶尖模型Claude Sonnet4,并超越DeepSeek-V3.2-Exp,成为当前国内最强代码生成模型。该模型在国产化适配方面取得里程碑进展,已成功部署于寒武纪国产芯片平台。
QuantTrio
DeepSeek-V3.2-Exp-AWQ是基于DeepSeek-V3.2-Exp模型的量化版本,通过vLLM框架实现高效文本生成。该模型引入了DeepSeek稀疏注意力机制,在长上下文训练和推理效率上有显著提升,同时保持了模型输出质量。
deepseek-ai
变换器库是一个强大的自然语言处理工具库,提供丰富的预训练模型和便捷的使用接口,广泛应用于文本生成、分类、翻译等NLP任务,极大提升开发效率。