DeepSeek研究發現,通過優化神經網絡架構而非單純擴大模型規模,可顯著提升大語言模型推理能力。其“流形約束超連接”技術對現有架構進行微調,爲AI發展提供了不依賴無限增加參數的新路徑。
Signal65基準測試顯示,英偉達GB200 NVL72在運行Deepseek-R1混合專家模型時,性能顯著優於同規模AMD MI355X集羣。混合專家模型通過激活特定專家提升效率,但大規模擴展時面臨節點通信延遲和帶寬壓力挑戰。
Jan團隊發佈300億參數多模態大模型Jan-v2-VL-Max,專爲長週期、高穩定性自動化任務設計,性能超越谷歌Gemini2.5Pro與DeepSeek R1。該模型重點解決多步任務中的“誤差累積”和“失焦”問題,爲開源智能體生態提供強大支持。
中國開源AI大模型實力凸顯,DeepSeek、Qwen和Kimi在最新評比中影響力並列第一。榜單由AI研究員發佈,涵蓋35家機構,超半數爲中國團隊,展現中國開源領域的快速發展,與美國閉源模式形成對比。
DeepSeek R1-0528 是一款開源大模型,性能媲美 OpenAI o3 模型。
DeepSeek-V3/R1 推理系統是一個高性能的分佈式推理架構,專為大規模 AI 模型優化設計。
一個支持DeepSeek R1的AI驅動研究助手,結合搜索引擎、網絡爬蟲和大型語言模型進行深度研究。
DeepSeek-R1-Distill-Llama-70B 是一款基於強化學習優化的大型語言模型,專注於推理和對話能力。
Google
$0.49
輸入tokens/百萬
$2.1
輸出tokens/百萬
1k
上下文長度
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$6
$24
256
$4
$16
Baidu
128
Bytedance
$1.2
$3.6
4
$2
$3.9
$15.2
64
Moonshot
$0.8
GilbertAkham
這是一個基於DeepSeek-R1-Distill-Qwen-1.5B的多任務微調模型,通過LoRA適配器在多個數據集上進行訓練,具備強大的多任務泛化和推理能力,能夠處理廣泛的自然語言和基於推理的任務。
mlx-community
DeepSeek-OCR-6bit是基於DeepSeek-OCR模型轉換的MLX格式版本,專門針對蘋果芯片優化。這是一個視覺語言模型,具備強大的光學字符識別能力,能夠從圖像中提取和識別文本信息。
BBQGOD
DeepSeek-GRM-16B 是一個基於 Self-Principled Critique Tuning (SPCT) 的生成式獎勵模型,能為查詢-響應生成透明的'原則→批判→分數'評估流程,可用於大語言模型的強化學習、評估和數據收集等任務。
QuantTrio
DeepSeek-V3.1是基於DeepSeek-V3.1-Base進行後訓練的大型語言模型,具有128K上下文長度,支持混合思維模式、智能工具調用和代碼代理功能。該模型在多項基準測試中表現出色,特別在數學推理、代碼生成和搜索代理任務上有顯著提升。
unsloth
DeepSeek-V3.1是DeepSeek-AI開發的大語言模型,是DeepSeek-V3的升級版本。該模型支持混合思考模式和非思考模式,在工具調用、代碼生成、數學推理等方面表現出色,支持128K上下文長度。
這是DeepSeek-V3.1-Base模型的4位量化版本,使用mlx-lm工具轉換而成,專門為Apple Silicon芯片優化,提供高效的大語言模型推理能力。
deepseek-ai
DeepSeek-V3.1是DeepSeek團隊開發的大規模語言模型,支持思考模式和非思考模式,在多個基準測試中表現出色,具備強大的文本理解、生成和推理能力。
nvidia
NVIDIA DeepSeek R1 FP4 v2是基於DeepSeek AI的DeepSeek R1模型進行FP4量化的文本生成模型,採用優化的Transformer架構,可用於商業和非商業用途。該模型通過TensorRT Model Optimizer進行量化,相比FP8版本顯著減少了磁盤大小和GPU內存需求。
NVIDIA DeepSeek-R1-0528-FP4 v2是DeepSeek R1 0528模型的量化版本,採用優化的Transformer架構,是一個自迴歸語言模型。通過FP4量化優化,減少了磁盤大小和GPU內存需求,同時保持較高推理效率。
這是DeepSeek-R1-Distill-Qwen-32B模型的MLX格式轉換版本,一個擁有320億參數的大型語言模型,專門針對MLX框架進行了優化,支持高效的文本生成和對話任務。
senfu
這是一個基於DeepSeek-R1-Distill-Qwen-7B模型,使用open-r1/OpenR1-Math-220k數學數據集進行微調的大語言模型。該模型專門針對數學推理和問題解決能力進行了優化,使用TRL框架進行訓練。
featherless-ai-quants
DeepSeek-R1-Distill-Qwen-14B 是一個經過優化的14B參數規模的大語言模型,由DeepSeek AI發佈,基於Qwen架構蒸餾而來,提供多種GGUF量化版本以提升性能。
NVIDIA DeepSeek-R1-0528-FP4 是 DeepSeek R1 0528 模型的量化版本,採用優化的 Transformer 架構,權重和激活值量化為 FP4 數據類型,顯著減少磁盤大小和 GPU 內存需求,支持 TensorRT-LLM 推理引擎實現高效推理。
DeepSeek-R1-0528模型的GPTQ量化版本,採用Int4 + 選擇性Int8的量化方案,在保證生成質量的同時減小文件大小。
lmstudio-community
由DeepSeek AI開發的大語言模型,經過4位量化優化,適用於蘋果芯片設備。
bartowski
DeepSeek-R1-0528 是一個大型語言模型,經過量化處理以優化在不同硬件上的運行效率。
Mungert
FairyR1-32B是由北大DS-LAB開發的高效大語言模型,基於DeepSeek-R1-Distill-Qwen-32B,通過'蒸餾-融合'創新流程實現高性能與低成本推理的平衡。
PKU-DS-LAB
FairyR1-32B是一款高效的大型語言模型,基於DeepSeek-R1-Distill-Qwen-32B,通過優化的蒸餾與合併流程,在數學和編程任務上表現優異。
ubergarm
DeepSeek - R1T - Chimera是一個高質量的大語言模型,通過ik_llama.cpp提供的先進量化方案,在保持性能的同時顯著減少內存佔用。
這是DeepSeek AI的DeepSeek V3-0324模型的量化版本,採用優化的Transformer架構,通過FP4量化技術顯著減少了模型大小和GPU內存需求,適用於AI智能體系統、聊天機器人等多種AI應用場景。
DeepClaude MCP是一個整合DeepSeek和Claude AI能力的服務器應用,通過雙模型協同提供更強大的AI響應服務。
Deepseek R1的MCP服務器實現,支持Node.js環境,提供強大的語言模型推理服務。
Deepseek R1的MCP服務器實現,支持與Claude Desktop集成,提供強大的語言模型推理服務。
一個MCP服務器,允許Claude Code在需要深入分析複雜問題時諮詢更強大的AI模型(如o3、Gemini 2.5 Pro、DeepSeek Reasoner)。