AI獨角獸DeepSeek近期啓動首次對外融資,目標估值超200億美元,騰訊與阿里均有意參與。儘管公司此前依賴創始人梁文鋒的量化交易資金,並無急迫融資需求,但此舉旨在通過股權激勵留住核心人才,應對R1論文作者郭達雅、研究員Wang Bingxuan等關鍵成員近期流失的挑戰。
4月9日,宇樹科技人形機器人R1在杭州阿里巴巴園區亮相,預示雙方合作預熱啓動。R1以擬人姿態操作電腦,屏幕顯示“邀請函”,爲即將在4月中旬推出的“樹賣通”項目宣傳造勢。
AI視頻生成技術正從內容生成邁向實時交互。領軍企業完成C輪融資,由鼎暉領投,多家知名機構跟投。同時,公司推出全球首發的實時世界模型PixVerse R1,標誌着AI視頻技術進入新階段。
DeepSeek 下週將推出 V4 大模型,新增支持圖片、視頻和文本生成功能。這是自 2025 年 1 月 R1 模型後的首次重大升級,進一步佈局國內低成本開源市場。財信證券分析師認爲,AI 應用商業化進程有望加速,尤其在春節期間,互聯網廠商正藉助高頻消費場景推動技術落地。
DeepSeek R1-0528 是一款開源大模型,性能媲美 OpenAI o3 模型。
基於DeepSeek R1和V3模型的瀏覽器側邊欄AI工具,提供問答、創作、翻譯等功能
R1-Omni 是一個結合強化學習的全模態情緒識別模型,專注於提升多模態情緒識別的可解釋性。
DeepSeek-V3/R1 推理系統是一個高性能的分佈式推理架構,專為大規模 AI 模型優化設計。
bartowski
這是TheDrummer的Cydonia - R1 - 24B - v4.1模型的量化版本,使用llama.cpp工具進行多種精度量化處理,可在不同硬件條件下高效運行,為用戶提供更多選擇。
這是TheDrummer的Behemoth R1 123B v2模型的量化版本,使用llama.cpp和imatrix技術進行量化處理,可在保持較好性能的同時顯著減少模型存儲空間和計算資源需求,適合在不同設備上運行。
nvidia
NVIDIA DeepSeek R1 FP4 v2是基於DeepSeek AI的DeepSeek R1模型進行FP4量化的文本生成模型,採用優化的Transformer架構,可用於商業和非商業用途。該模型通過TensorRT Model Optimizer進行量化,相比FP8版本顯著減少了磁盤大小和GPU內存需求。
NVIDIA DeepSeek-R1-0528-FP4 v2是DeepSeek R1 0528模型的量化版本,採用優化的Transformer架構,是一個自迴歸語言模型。通過FP4量化優化,減少了磁盤大小和GPU內存需求,同時保持較高推理效率。
NVIDIA DeepSeek-R1-0528-FP4 是 DeepSeek R1 0528 模型的量化版本,採用優化的 Transformer 架構,權重和激活值量化為 FP4 數據類型,顯著減少磁盤大小和 GPU 內存需求,支持 TensorRT-LLM 推理引擎實現高效推理。
DeepSeek AI 公司的 DeepSeek R1 0528 模型的量化版本,基於優化的 Transformer 架構的自迴歸語言模型,可用於商業和非商業用途。
Sci-fi-vy
DeepSeek-R1-0528是DeepSeek R1系列的小版本升級模型,通過增加計算資源和算法優化顯著提升了推理深度和能力,在數學、編程等多個基準測試中表現出色。
cognitivecomputations
DeepSeek R1 0528的AWQ量化模型,支持使用vLLM在8塊80GB GPU上以全上下文長度運行。
QuixiAI
DeepSeek-R1-0528-AWQ 是 DeepSeek R1 0528 的 AWQ 量化版本,通過量化技術提升了模型運行效率,修復了代碼問題,提供更穩定的服務。
DeepSeek-R1-0528是DeepSeek R1模型的小版本升級,通過增加計算資源和算法優化顯著提升了推理能力,在數學、編程和通用邏輯等多個基準評估中表現出色。
launch
ThinkPRM-7B是一款基於R1-Distill-Qwen-7B架構的生成式過程獎勵模型,專門用於對推理過程進行逐步驗證。它通過生成明確的驗證思維鏈來評估數學解題、代碼生成等推理任務的每一步正確性,具有數據效率高、可解釋性強的特點。
ubergarm
DeepSeek - R1T - Chimera是一個高質量的大語言模型,通過ik_llama.cpp提供的先進量化方案,在保持性能的同時顯著減少內存佔用。
yongchao98
R1-Code-Interpreter是首個使用多輪監督微調與強化學習訓練大語言模型進行逐步代碼推理的框架,支持144個不同的推理和規劃任務,使模型能夠自主決定何時以及如何調用代碼。
Skywork
天工-R1V2-38B是當前最先進的開源多模態推理模型,在多項基準測試中表現卓越,具備強大的視覺推理與文本理解能力。
ThinkPRM-1.5B是基於R1-Distill-Qwen-1.5B架構的生成式過程獎勵模型,能夠通過生成驗證思維鏈對推理過程進行逐步驗證。
OctoThinker
OctoThinker-3B-Hybrid-Zero是基於Llama-3家族構建的強化學習基礎語言模型,採用R1-Zero風格的強化學習技術進行訓練。
FractalAIResearch
Fathom-R1-14B是一個基於R1-distilled-14B模型的項目,以499美元的低訓練成本在16K上下文下實現o4-mini水平的數學推理能力。
r1char9
基於RuBERT-tiny2微調的俄語新聞命名實體識別模型,專注於從俄語新聞文本中識別各類實體。
UCSC-VLAA
VLAA-Thinker是一個創新的視覺語言模型,能夠同時處理圖像和文本輸入,並生成高質量的文本輸出。該模型基於論文《SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models》的研究成果開發,專注於類似R1的推理能力。
VLAA-Thinker-Qwen2.5-3B是一個類似R1的推理大視覺語言模型,專注於多模態推理任務。該模型在OpenCompass多模態推理排行榜上達到了SOTA性能,支持圖像理解和複雜推理能力。
通過集成DeepSeek R1的推理引擎增強Claude的複雜任務處理能力
本地化運行的智能代理系統,結合推理模型與工具調用模型
一個基於Node.js的Deepseek R1語言模型MCP服務器實現,支持8192令牌上下文窗口,提供穩定的Claude Desktop集成和模型參數配置。
該項目通過集成DeepSeek R1的推理引擎增強Claude的複雜任務處理能力,提供多步驟精確推理支持。
Deepseek R1的MCP服務器實現,支持Node.js環境,提供強大的語言模型推理服務。
Deepseek R1的MCP服務器實現,支持與Claude Desktop集成,提供強大的語言模型推理服務。
Thoughtful Claude是一個增強Claude推理能力的MCP服務器,通過集成DeepSeek R1的高級推理引擎,為Claude提供複雜多步推理任務處理能力。
一個利用Deepseek R1模型的思維鏈進行推理的MCP服務工具,支持在Claude Desktop等客戶端中使用。
該項目通過集成DeepSeek R1的推理引擎,增強Claude處理複雜推理任務的能力,提供高效精準的多步推理解決方案。
DeepSeek MCP Server通過集成DeepSeek R1的先進推理引擎增強Claude的推理能力,使其能夠處理複雜的多步推理任務。
這是一個為汽車網絡安全法規提供即時查詢的MCP服務器,包含完整的UNECE R155/R156法規和ISO 21434標準內容,支持自然語言搜索和合規性分析,幫助工程師和合規人員快速獲取準確的法規要求。
DeepSeek R1與Claude結合的認知架構項目,通過R1進行高級推理規劃,Claude執行具體分析,實現多步驟邏輯推理和結構化思維處理。
DeepSeek MCP服務器通過集成DeepSeek R1的先進推理引擎增強Claude的推理能力,使其能夠處理複雜的多步推理任務。
DeepSeek MCP Server通過集成DeepSeek R1的高級推理引擎增強Claude的推理能力,使其能夠處理複雜的多步推理任務。
DeepSeek-Claude MCP服務器通過整合DeepSeek R1的先進推理引擎,增強Claude處理複雜推理任務的能力。
結合DeepSeek R1推理與Claude 3.5生成能力的MCP服務