腾讯云宣布将于2025年11月24日下线DeepSeek-V3和DeepSeek-R1模型,届时停止所有接入服务。官方建议用户迁移至最新稳定版本,以配合大模型技术持续升级。
腾讯发布Training-Free GRPO技术,通过外部知识库替代参数微调,在模型参数冻结状态下实现性能优化。该方法将经验知识转化为token级先验信息,显著降低训练成本,在DeepSeek-V3.1-Terminus模型上达到与昂贵微调相当的提升效果。
硅基流动发布实验性模型DeepSeek-V3.2-Exp,支持160K上下文长度,价格直降超50%。该模型基于V3.1-Terminus深度优化,引入DeepSeek稀疏注意力机制,显著提升长文本训练和推理效率。
智谱AI发布并开源新一代模型GLM-4.6,在Agentic Coding等关键能力上实现大幅提升。其编程能力已对齐国际顶尖模型Claude Sonnet4,并超越DeepSeek-V3.2-Exp,成为当前国内最强代码生成模型。该模型在国产化适配方面取得里程碑进展,已成功部署于寒武纪国产芯片平台。
一个强大的文本生成模型,适用于多种对话应用。
DeepSeek-V3/R1 推理系统是一个高性能的分布式推理架构,专为大规模 AI 模型优化设计。
一个开源的NotebookLM实现,使用Deepseek-V3和PlayHT TTS技术。
一款具有671B参数的Mixture-of-Experts语言模型。
deepseek
$3.96
输入tokens/百万
$15.77
输出tokens/百万
128k
上下文长度
$0.86
$1.3
-
$0.72
$2.88
$1.94
$7.92
4.1k
moxin-org
本项目对DeepSeek-V3-0324进行了llama.cpp混合精度量化,解决了模型在边缘设备上部署的难题,提升了模型的运行效率和资源利用率。
kathywu95
这是一个基于DeepSeek-V3架构的随机权重生成模型,专门用于测试和开发目的。模型使用随机初始化的权重,参数规模经过精简,适合快速原型开发和功能验证。
QuantTrio
DeepSeek-V3.2-Exp-AWQ是基于DeepSeek-V3.2-Exp模型的量化版本,通过vLLM框架实现高效文本生成。该模型引入了DeepSeek稀疏注意力机制,在长上下文训练和推理效率上有显著提升,同时保持了模型输出质量。
deepseek-ai
变换器库是一个强大的自然语言处理工具库,提供丰富的预训练模型和便捷的使用接口,广泛应用于文本生成、分类、翻译等NLP任务,极大提升开发效率。
DeepSeek-V3.1是基于DeepSeek-V3.1-Base进行后训练的大型语言模型,具有128K上下文长度,支持混合思维模式、智能工具调用和代码代理功能。该模型在多项基准测试中表现出色,特别在数学推理、代码生成和搜索代理任务上有显著提升。
ubergarm
基于DeepSeek-V3.1模型的GGUF格式量化版本,使用ik_llama.cpp分支进行最优量化。该模型在特定内存占用下实现最佳困惑度表现,提供从IQ5_K到IQ1_S等多种量化方案,满足不同内存和性能需求。
bartowski
这是DeepSeek-V3.1模型的量化版本,使用llama.cpp的imatrix技术进行量化处理,旨在提升模型在不同硬件上的运行效率和性能。该版本提供多种量化级别,从高质量Q8_0到极低质量IQ1_M,满足不同硬件配置和性能需求。
unsloth
DeepSeek-V3.1是DeepSeek-AI开发的大语言模型,是DeepSeek-V3的升级版本。该模型支持混合思考模式和非思考模式,在工具调用、代码生成、数学推理等方面表现出色,支持128K上下文长度。
mlx-community
这是DeepSeek-V3.1-Base模型的4位量化版本,使用mlx-lm工具转换而成,专门为Apple Silicon芯片优化,提供高效的大语言模型推理能力。
DeepSeek-V3.1是DeepSeek团队开发的大规模语言模型,支持思考模式和非思考模式,在多个基准测试中表现出色,具备强大的文本理解、生成和推理能力。
bobchenyx
这是DeepSeek-V3-0324的量化版本,采用特定量化方法处理,旨在不同场景下实现更高效的使用,支持多种量化规格以平衡性能与效率。
tngtech
DeepSeek-R1T-Chimera 是一个结合了 DeepSeek-R1 智能和 DeepSeek-V3 令牌效率的开源权重模型。
GLM-4-32B-0414是GLM家族的新成员,具备320亿参数规模,性能媲美GPT系列和DeepSeek-V3系列,支持本地部署。
GLM-4-32B-0414是拥有320亿参数的大语言模型,性能媲美GPT-4o和DeepSeek-V3,支持中文和英语,具备卓越的代码生成、函数调用和复杂任务处理能力。
GLM-4-32B-0414是GLM家族的新成员,参数规模达320亿,性能与GPT-4o、DeepSeek-V3等相当,支持本地部署。
DeepSeek-V3-0324 是由 Unsloth 提供的动态量化版本,支持在 llama.cpp、LMStudio 等推理框架中运行。
ByteDance-Seed
基于DeepSeek-V3架构的90亿参数大语言模型,使用完全开源且仅含英文的3500亿+token数据集从头训练而成,专为开源社区开发和调试设计。
AlphaGaO
这是一个未经过完整训练的实验性模型,主要用于研究目的,通过模型融合技术创建,需要特定修复流程才能恢复正常功能。
zai-org
GLM-4-32B-Base-0414是GLM家族的新成员,拥有320亿参数,在15T高质量数据上进行预训练,性能可与GPT-4o和DeepSeek-V3等先进模型相媲美。该模型支持便捷的本地部署,在代码生成、函数调用、搜索式问答等方面表现优异。
GLM-4-32B-0414是GLM家族的新成员,拥有320亿参数的高性能大语言模型。该模型在15T高质量数据上进行预训练,包含大量推理型合成数据,在代码生成、函数调用、搜索问答等多个任务场景中表现出色,性能可与GPT-4o和DeepSeek-V3等更大规模模型相媲美。
一个基于DeepSeek-V3开发的MCP天气查询智能体项目,通过配置API密钥和运行客户端脚本来实现功能。
一个使用DeepSeek-V3模型的MCP演示项目,通过命令行交互查询天气信息,支持获取警报和天气预报功能。