中国自主研发的DeepSeek模型在港大主导的AI交易实验中表现突出,以10.61%年化回报率击败GPT等国际顶尖AI模型及纳斯达克100指数,展现AI在无人干预股市交易中的潜力。
百川大模型发布医疗大模型Baichuan-M2Plus,升级应用百小应并开放API接口。评测显示,该模型医疗幻觉率显著低于通用大模型,较DeepSeek降低约3倍,表现优于美国OpenEvidence应用。
百川大模型发布医疗大模型Baichuan-M2Plus,升级百小应应用并开放API。该模型在医疗幻觉率上表现突出,较通用模型大幅降低,相比现有医疗产品DeepSeek降低约3倍,并超越美国OpenEvidence。基于创新的六源循证技术,提升了医疗问答的准确性。
百度文心X1.1在SuperCLUE-CPIF中文指令遵循测评中以75.51分位列国产大模型第一。该基准评估10个国内外知名模型在中文复杂指令执行能力,包括GPT-5、DeepSeek等,重点关注任务类型与指令遵循表现。
DeepSeek R1-0528 是一款开源大模型,性能媲美 OpenAI o3 模型。
DeepSeek-V3/R1 推理系统是一个高性能的分布式推理架构,专为大规模 AI 模型优化设计。
一个支持DeepSeek R1的AI驱动研究助手,结合搜索引擎、网络爬虫和大型语言模型进行深度研究。
DeepSeek 是一款先进的 AI 语言模型,擅长逻辑推理、数学和编程任务,提供免费使用。
deepseek
$1.94
Input tokens/M
$7.92
Output tokens/M
128k
Context Length
BBQGOD
DeepSeek-GRM-16B 是一个基于 Self-Principled Critique Tuning (SPCT) 的生成式奖励模型,能为查询-响应生成透明的'原则→批判→分数'评估流程,可用于大语言模型的强化学习、评估和数据收集等任务。
QuantTrio
DeepSeek-V3.1是基于DeepSeek-V3.1-Base进行后训练的大型语言模型,具有128K上下文长度,支持混合思维模式、智能工具调用和代码代理功能。该模型在多项基准测试中表现出色,特别在数学推理、代码生成和搜索代理任务上有显著提升。
unsloth
DeepSeek-V3.1是DeepSeek-AI开发的大语言模型,是DeepSeek-V3的升级版本。该模型支持混合思考模式和非思考模式,在工具调用、代码生成、数学推理等方面表现出色,支持128K上下文长度。
mlx-community
这是DeepSeek-V3.1-Base模型的4位量化版本,使用mlx-lm工具转换而成,专门为Apple Silicon芯片优化,提供高效的大语言模型推理能力。
deepseek-ai
DeepSeek-V3.1是DeepSeek团队开发的大规模语言模型,支持思考模式和非思考模式,在多个基准测试中表现出色,具备强大的文本理解、生成和推理能力。
这是DeepSeek-R1-Distill-Qwen-32B模型的MLX格式转换版本,一个拥有320亿参数的大型语言模型,专门针对MLX框架进行了优化,支持高效的文本生成和对话任务。
senfu
这是一个基于DeepSeek-R1-Distill-Qwen-7B模型,使用open-r1/OpenR1-Math-220k数学数据集进行微调的大语言模型。该模型专门针对数学推理和问题解决能力进行了优化,使用TRL框架进行训练。
featherless-ai-quants
DeepSeek-R1-Distill-Qwen-14B 是一个经过优化的14B参数规模的大语言模型,由DeepSeek AI发布,基于Qwen架构蒸馏而来,提供多种GGUF量化版本以提升性能。
lmstudio-community
由DeepSeek AI开发的大语言模型,经过4位量化优化,适用于苹果芯片设备。
bartowski
DeepSeek-R1-0528 是一个大型语言模型,经过量化处理以优化在不同硬件上的运行效率。
DeepSeek-R1 是一个专注于数学基础与模型推理能力的大语言模型。
Mungert
FairyR1-32B是由北大DS-LAB开发的高效大语言模型,基于DeepSeek-R1-Distill-Qwen-32B,通过'蒸馏-融合'创新流程实现高性能与低成本推理的平衡。
PKU-DS-LAB
FairyR1-32B是一款高效的大型语言模型,基于DeepSeek-R1-Distill-Qwen-32B,通过优化的蒸馏与合并流程,在数学和编程任务上表现优异。
ubergarm
DeepSeek - R1T - Chimera是一个高质量的大语言模型,通过ik_llama.cpp提供的先进量化方案,在保持性能的同时显著减少内存占用。
GLM-4-32B-0414是拥有320亿参数的大语言模型,性能媲美GPT-4o和DeepSeek-V3,支持中文和英语,具备卓越的代码生成、函数调用和复杂任务处理能力。
DeepSeek-R1 是一个高效的大语言模型,采用了 Unsloth Dynamic v2.0 量化技术,实现了卓越的准确性。
基于DeepSeek-R1-Distilled-Qwen-1.5B微调的代码推理大语言模型,采用分布式强化学习技术扩展长上下文处理能力
adriabama06
DeepCoder-1.5B-Preview是一款基于代码推理的大型语言模型,通过分布式强化学习从DeepSeek-R1-Distilled-Qwen-1.5B微调而来,能够处理更长的上下文长度。
ByteDance-Seed
基于DeepSeek-V3架构的90亿参数大语言模型,使用完全开源且仅含英文的3500亿+token数据集从头训练而成,专为开源社区开发和调试设计。
async0x42
基于DeepSeek-R1-Distilled-Qwen-1.5B微调的代码推理大模型,采用分布式强化学习技术扩展长上下文处理能力