騰訊雲宣佈將於2025年11月24日下線DeepSeek-V3和DeepSeek-R1模型,屆時停止所有接入服務。官方建議用戶遷移至最新穩定版本,以配合大模型技術持續升級。
中國自主研發的DeepSeek模型在港大主導的AI交易實驗中表現突出,以10.61%年化回報率擊敗GPT等國際頂尖AI模型及納斯達克100指數,展現AI在無人干預股市交易中的潛力。
百川大模型發佈醫療大模型Baichuan-M2Plus,升級應用百小應並開放API接口。評測顯示,該模型醫療幻覺率顯著低於通用大模型,較DeepSeek降低約3倍,表現優於美國OpenEvidence應用。
百川大模型發佈醫療大模型Baichuan-M2Plus,升級百小應應用並開放API。該模型在醫療幻覺率上表現突出,較通用模型大幅降低,相比現有醫療產品DeepSeek降低約3倍,並超越美國OpenEvidence。基於創新的六源循證技術,提升了醫療問答的準確性。
DeepSeek R1-0528 是一款開源大模型,性能媲美 OpenAI o3 模型。
DeepSeek-V3/R1 推理系統是一個高性能的分佈式推理架構,專為大規模 AI 模型優化設計。
一個支持DeepSeek R1的AI驅動研究助手,結合搜索引擎、網絡爬蟲和大型語言模型進行深度研究。
DeepSeek-R1-Distill-Llama-70B 是一款基於強化學習優化的大型語言模型,專注於推理和對話能力。
deepseek
$1.94
輸入tokens/百萬
$7.92
輸出tokens/百萬
128k
上下文長度
GilbertAkham
這是一個基於DeepSeek-R1-Distill-Qwen-1.5B的多任務微調模型,通過LoRA適配器在多個數據集上進行訓練,具備強大的多任務泛化和推理能力,能夠處理廣泛的自然語言和基於推理的任務。
BBQGOD
DeepSeek-GRM-16B 是一個基於 Self-Principled Critique Tuning (SPCT) 的生成式獎勵模型,能為查詢-響應生成透明的'原則→批判→分數'評估流程,可用於大語言模型的強化學習、評估和數據收集等任務。
QuantTrio
DeepSeek-V3.1是基於DeepSeek-V3.1-Base進行後訓練的大型語言模型,具有128K上下文長度,支持混合思維模式、智能工具調用和代碼代理功能。該模型在多項基準測試中表現出色,特別在數學推理、代碼生成和搜索代理任務上有顯著提升。
unsloth
DeepSeek-V3.1是DeepSeek-AI開發的大語言模型,是DeepSeek-V3的升級版本。該模型支持混合思考模式和非思考模式,在工具調用、代碼生成、數學推理等方面表現出色,支持128K上下文長度。
mlx-community
這是DeepSeek-V3.1-Base模型的4位量化版本,使用mlx-lm工具轉換而成,專門為Apple Silicon芯片優化,提供高效的大語言模型推理能力。
deepseek-ai
DeepSeek-V3.1是DeepSeek團隊開發的大規模語言模型,支持思考模式和非思考模式,在多個基準測試中表現出色,具備強大的文本理解、生成和推理能力。
這是DeepSeek-R1-Distill-Qwen-32B模型的MLX格式轉換版本,一個擁有320億參數的大型語言模型,專門針對MLX框架進行了優化,支持高效的文本生成和對話任務。
senfu
這是一個基於DeepSeek-R1-Distill-Qwen-7B模型,使用open-r1/OpenR1-Math-220k數學數據集進行微調的大語言模型。該模型專門針對數學推理和問題解決能力進行了優化,使用TRL框架進行訓練。
featherless-ai-quants
DeepSeek-R1-Distill-Qwen-14B 是一個經過優化的14B參數規模的大語言模型,由DeepSeek AI發佈,基於Qwen架構蒸餾而來,提供多種GGUF量化版本以提升性能。
DeepSeek-R1-0528模型的GPTQ量化版本,採用Int4 + 選擇性Int8的量化方案,在保證生成質量的同時減小文件大小。
lmstudio-community
由DeepSeek AI開發的大語言模型,經過4位量化優化,適用於蘋果芯片設備。
bartowski
DeepSeek-R1-0528 是一個大型語言模型,經過量化處理以優化在不同硬件上的運行效率。
Mungert
FairyR1-32B是由北大DS-LAB開發的高效大語言模型,基於DeepSeek-R1-Distill-Qwen-32B,通過'蒸餾-融合'創新流程實現高性能與低成本推理的平衡。
PKU-DS-LAB
FairyR1-32B是一款高效的大型語言模型,基於DeepSeek-R1-Distill-Qwen-32B,通過優化的蒸餾與合併流程,在數學和編程任務上表現優異。
ubergarm
DeepSeek - R1T - Chimera是一個高質量的大語言模型,通過ik_llama.cpp提供的先進量化方案,在保持性能的同時顯著減少內存佔用。
GLM-4-32B-0414是擁有320億參數的大語言模型,性能媲美GPT-4o和DeepSeek-V3,支持中文和英語,具備卓越的代碼生成、函數調用和複雜任務處理能力。
DeepSeek-R1 是一個高效的大語言模型,採用了 Unsloth Dynamic v2.0 量化技術,實現了卓越的準確性。
基於DeepSeek-R1-Distilled-Qwen-1.5B微調的代碼推理大語言模型,採用分佈式強化學習技術擴展長上下文處理能力
adriabama06
DeepCoder-1.5B-Preview是一款基於代碼推理的大型語言模型,通過分佈式強化學習從DeepSeek-R1-Distilled-Qwen-1.5B微調而來,能夠處理更長的上下文長度。
ByteDance-Seed
基於DeepSeek-V3架構的90億參數大語言模型,使用完全開源且僅含英文的3500億+token數據集從頭訓練而成,專為開源社區開發和調試設計。
DeepClaude MCP是一個整合DeepSeek和Claude AI能力的服務器應用,通過雙模型協同提供更強大的AI響應服務。
Deepseek R1的MCP服務器實現,支持Node.js環境,提供強大的語言模型推理服務。
Deepseek R1的MCP服務器實現,支持與Claude Desktop集成,提供強大的語言模型推理服務。
一個MCP服務器,允許Claude Code在需要深入分析複雜問題時諮詢更強大的AI模型(如o3、Gemini 2.5 Pro、DeepSeek Reasoner)。