Jan团队发布300亿参数多模态大模型Jan-v2-VL-Max,专为长周期、高稳定性自动化任务设计,性能超越谷歌Gemini2.5Pro与DeepSeek R1。该模型重点解决多步任务中的“误差累积”和“失焦”问题,为开源智能体生态提供强大支持。
中国开源AI大模型实力凸显,DeepSeek、Qwen和Kimi在最新评比中影响力并列第一。榜单由AI研究员发布,涵盖35家机构,超半数为中国团队,展现中国开源领域的快速发展,与美国闭源模式形成对比。
腾讯自研大模型混元2.0(Tencent HY2.0)正式发布,与此同时,DeepSeek V3.2也逐步接入腾讯生态。目前,这两大模型已在元宝、ima等腾讯AI原生应用中率先上线,腾讯云也同步开放了相关模型的API及平台服务。 全新发布的Tencent HY2.0采用混合专家(MoE)架构,总参数量高达4
小米宣布将AI大模型列为未来十年核心战略,过去四个季度投入环比增速超50%,进展超出预期。公司启动全球人才招募,单岗位薪酬上限达千万元,以快速补齐大模型人才缺口。原DeepSeek核心成员加盟,MiMo团队浮出水面。
DeepSeek R1-0528 是一款开源大模型,性能媲美 OpenAI o3 模型。
DeepSeek-V3/R1 推理系统是一个高性能的分布式推理架构,专为大规模 AI 模型优化设计。
一个支持DeepSeek R1的AI驱动研究助手,结合搜索引擎、网络爬虫和大型语言模型进行深度研究。
DeepSeek 是一款先进的 AI 语言模型,擅长逻辑推理、数学和编程任务,提供免费使用。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
Baidu
128
$6
$24
$8
$240
52
Bytedance
$1.2
$3.6
4
BBQGOD
DeepSeek-GRM-16B 是一个基于 Self-Principled Critique Tuning (SPCT) 的生成式奖励模型,能为查询-响应生成透明的'原则→批判→分数'评估流程,可用于大语言模型的强化学习、评估和数据收集等任务。
QuantTrio
DeepSeek-V3.1是基于DeepSeek-V3.1-Base进行后训练的大型语言模型,具有128K上下文长度,支持混合思维模式、智能工具调用和代码代理功能。该模型在多项基准测试中表现出色,特别在数学推理、代码生成和搜索代理任务上有显著提升。
unsloth
DeepSeek-V3.1是DeepSeek-AI开发的大语言模型,是DeepSeek-V3的升级版本。该模型支持混合思考模式和非思考模式,在工具调用、代码生成、数学推理等方面表现出色,支持128K上下文长度。
mlx-community
这是DeepSeek-V3.1-Base模型的4位量化版本,使用mlx-lm工具转换而成,专门为Apple Silicon芯片优化,提供高效的大语言模型推理能力。
deepseek-ai
DeepSeek-V3.1是DeepSeek团队开发的大规模语言模型,支持思考模式和非思考模式,在多个基准测试中表现出色,具备强大的文本理解、生成和推理能力。
nvidia
NVIDIA DeepSeek R1 FP4 v2是基于DeepSeek AI的DeepSeek R1模型进行FP4量化的文本生成模型,采用优化的Transformer架构,可用于商业和非商业用途。该模型通过TensorRT Model Optimizer进行量化,相比FP8版本显著减少了磁盘大小和GPU内存需求。
NVIDIA DeepSeek-R1-0528-FP4 v2是DeepSeek R1 0528模型的量化版本,采用优化的Transformer架构,是一个自回归语言模型。通过FP4量化优化,减少了磁盘大小和GPU内存需求,同时保持较高推理效率。
这是DeepSeek-R1-Distill-Qwen-32B模型的MLX格式转换版本,一个拥有320亿参数的大型语言模型,专门针对MLX框架进行了优化,支持高效的文本生成和对话任务。
senfu
这是一个基于DeepSeek-R1-Distill-Qwen-7B模型,使用open-r1/OpenR1-Math-220k数学数据集进行微调的大语言模型。该模型专门针对数学推理和问题解决能力进行了优化,使用TRL框架进行训练。
featherless-ai-quants
DeepSeek-R1-Distill-Qwen-14B 是一个经过优化的14B参数规模的大语言模型,由DeepSeek AI发布,基于Qwen架构蒸馏而来,提供多种GGUF量化版本以提升性能。
NVIDIA DeepSeek-R1-0528-FP4 是 DeepSeek R1 0528 模型的量化版本,采用优化的 Transformer 架构,权重和激活值量化为 FP4 数据类型,显著减少磁盘大小和 GPU 内存需求,支持 TensorRT-LLM 推理引擎实现高效推理。
Intel
这是一个基于DeepSeek-R1-0528-Qwen3-8B模型,使用Intel的AutoRound算法进行INT4量化的开源大语言模型。该模型在保持较高性能的同时,显著降低了模型大小和推理资源需求,适用于在CPU、Intel GPU或CUDA等设备上进行高效推理。
lmstudio-community
由DeepSeek AI开发的大语言模型,经过4位量化优化,适用于苹果芯片设备。
bartowski
DeepSeek-R1-0528 是一个大型语言模型,经过量化处理以优化在不同硬件上的运行效率。
DeepSeek-R1 是一个专注于数学基础与模型推理能力的大语言模型。
Mungert
FairyR1-32B是由北大DS-LAB开发的高效大语言模型,基于DeepSeek-R1-Distill-Qwen-32B,通过'蒸馏-融合'创新流程实现高性能与低成本推理的平衡。
PKU-DS-LAB
FairyR1-32B是一款高效的大型语言模型,基于DeepSeek-R1-Distill-Qwen-32B,通过优化的蒸馏与合并流程,在数学和编程任务上表现优异。
ubergarm
DeepSeek - R1T - Chimera是一个高质量的大语言模型,通过ik_llama.cpp提供的先进量化方案,在保持性能的同时显著减少内存占用。
这是DeepSeek AI的DeepSeek V3-0324模型的量化版本,采用优化的Transformer架构,通过FP4量化技术显著减少了模型大小和GPU内存需求,适用于AI智能体系统、聊天机器人等多种AI应用场景。
GLM-4-32B-0414是拥有320亿参数的大语言模型,性能媲美GPT-4o和DeepSeek-V3,支持中文和英语,具备卓越的代码生成、函数调用和复杂任务处理能力。