DeepSeek发布V3.2标准版与深度思考版。评测显示,V3.2在128k上下文场景下与GPT-5互有胜负;深度思考版在多项基准测试中与Gemini3Pro持平,并在IMO2025盲测中达到金牌分数线。核心升级是转正稀疏注意力技术,通过优化token路由,显著降低了长文本的计算复杂度、显存占用,并提升了推理速度,首次在开源模型中实现了百万token的单卡推理能力。
DeepSeek发布实验模型V3.2-exp,采用创新稀疏注意力机制,显著降低长上下文操作的推理成本,使API成本减少一半。该模型为开发者提供更经济高效的AI解决方案。
DeepSeek发布实验模型V3.2-exp,采用创新的“稀疏注意力”机制显著降低长上下文推理成本。该模型已在Hugging Face和GitHub同步上线,核心是通过“闪电索引器”和注意力机制优化处理效率。这一突破性技术有望推动AI在长文本处理领域的发展。
DeepSeek悄然上线新版模型,疑似V3.2版本。虽然官方未明确型号,但Hugging Face平台出现对应命名空间,随后又显示404下架。V3系列此前已凭卓越性能和开源策略震动AI界,此次短暂亮相又神秘消失,更添悬念。
Fentible
Cthulhu是一个基于Mistral Small v3.2和v3.1的大型模型融合项目,通过融合多个尖端微调模型创建的超强24B参数语言模型。它具有章鱼般的多面性特征,提供无审查的创造性文本生成能力,擅长散文创作、指令遵循和深奥知识表达。
DavidAU
基于Stheno v3.2模型的NEO CLASS量化版本,采用先进的量化技术提升模型性能,在保持高质量输出的同时显著降低计算资源需求。