AI独角兽DeepSeek近期启动首次对外融资,目标估值超200亿美元,腾讯与阿里均有意参与。尽管公司此前依赖创始人梁文锋的量化交易资金,并无急迫融资需求,但此举旨在通过股权激励留住核心人才,应对R1论文作者郭达雅、研究员Wang Bingxuan等关键成员近期流失的挑战。
4月9日,宇树科技人形机器人R1在杭州阿里巴巴园区亮相,预示双方合作预热启动。R1以拟人姿态操作电脑,屏幕显示“邀请函”,为即将在4月中旬推出的“树卖通”项目宣传造势。
AI视频生成技术正从内容生成迈向实时交互。领军企业完成C轮融资,由鼎晖领投,多家知名机构跟投。同时,公司推出全球首发的实时世界模型PixVerse R1,标志着AI视频技术进入新阶段。
DeepSeek 下周将推出 V4 大模型,新增支持图片、视频和文本生成功能。这是自 2025 年 1 月 R1 模型后的首次重大升级,进一步布局国内低成本开源市场。财信证券分析师认为,AI 应用商业化进程有望加速,尤其在春节期间,互联网厂商正借助高频消费场景推动技术落地。
DeepSeek R1-0528 是一款开源大模型,性能媲美 OpenAI o3 模型。
基于DeepSeek R1和V3模型的浏览器侧边栏AI工具,提供问答、创作、翻译等功能
R1-Omni 是一个结合强化学习的全模态情绪识别模型,专注于提升多模态情绪识别的可解释性。
DeepSeek-V3/R1 推理系统是一个高性能的分布式推理架构,专为大规模 AI 模型优化设计。
bartowski
这是TheDrummer的Cydonia - R1 - 24B - v4.1模型的量化版本,使用llama.cpp工具进行多种精度量化处理,可在不同硬件条件下高效运行,为用户提供更多选择。
这是TheDrummer的Behemoth R1 123B v2模型的量化版本,使用llama.cpp和imatrix技术进行量化处理,可在保持较好性能的同时显著减少模型存储空间和计算资源需求,适合在不同设备上运行。
nvidia
NVIDIA DeepSeek R1 FP4 v2是基于DeepSeek AI的DeepSeek R1模型进行FP4量化的文本生成模型,采用优化的Transformer架构,可用于商业和非商业用途。该模型通过TensorRT Model Optimizer进行量化,相比FP8版本显著减少了磁盘大小和GPU内存需求。
NVIDIA DeepSeek-R1-0528-FP4 v2是DeepSeek R1 0528模型的量化版本,采用优化的Transformer架构,是一个自回归语言模型。通过FP4量化优化,减少了磁盘大小和GPU内存需求,同时保持较高推理效率。
NVIDIA DeepSeek-R1-0528-FP4 是 DeepSeek R1 0528 模型的量化版本,采用优化的 Transformer 架构,权重和激活值量化为 FP4 数据类型,显著减少磁盘大小和 GPU 内存需求,支持 TensorRT-LLM 推理引擎实现高效推理。
DeepSeek AI 公司的 DeepSeek R1 0528 模型的量化版本,基于优化的 Transformer 架构的自回归语言模型,可用于商业和非商业用途。
Sci-fi-vy
DeepSeek-R1-0528是DeepSeek R1系列的小版本升级模型,通过增加计算资源和算法优化显著提升了推理深度和能力,在数学、编程等多个基准测试中表现出色。
QuixiAI
DeepSeek-R1-0528-AWQ 是 DeepSeek R1 0528 的 AWQ 量化版本,通过量化技术提升了模型运行效率,修复了代码问题,提供更稳定的服务。
cognitivecomputations
DeepSeek R1 0528的AWQ量化模型,支持使用vLLM在8块80GB GPU上以全上下文长度运行。
DeepSeek-R1-0528是DeepSeek R1模型的小版本升级,通过增加计算资源和算法优化显著提升了推理能力,在数学、编程和通用逻辑等多个基准评估中表现出色。
deepseek-ai
DeepSeek R1模型已完成小幅版本升级,当前版本为DeepSeek-R1-0528。在最新更新中,DeepSeek R1通过增加计算资源投入并在后训练阶段引入算法优化机制,显著提升了其深度推理与推断能力。
launch
ThinkPRM-7B是一款基于R1-Distill-Qwen-7B架构的生成式过程奖励模型,专门用于对推理过程进行逐步验证。它通过生成明确的验证思维链来评估数学解题、代码生成等推理任务的每一步正确性,具有数据效率高、可解释性强的特点。
ubergarm
DeepSeek - R1T - Chimera是一个高质量的大语言模型,通过ik_llama.cpp提供的先进量化方案,在保持性能的同时显著减少内存占用。
yongchao98
R1-Code-Interpreter是首个使用多轮监督微调与强化学习训练大语言模型进行逐步代码推理的框架,支持144个不同的推理和规划任务,使模型能够自主决定何时以及如何调用代码。
Skywork
天工-R1V2-38B是当前最先进的开源多模态推理模型,在多项基准测试中表现卓越,具备强大的视觉推理与文本理解能力。
ThinkPRM-1.5B是基于R1-Distill-Qwen-1.5B架构的生成式过程奖励模型,能够通过生成验证思维链对推理过程进行逐步验证。
OctoThinker
OctoThinker-3B-Hybrid-Zero是基于Llama-3家族构建的强化学习基础语言模型,采用R1-Zero风格的强化学习技术进行训练。
FractalAIResearch
Fathom-R1-14B是一个基于R1-distilled-14B模型的项目,以499美元的低训练成本在16K上下文下实现o4-mini水平的数学推理能力。
r1char9
基于RuBERT-tiny2微调的俄语新闻命名实体识别模型,专注于从俄语新闻文本中识别各类实体。
UCSC-VLAA
VLAA-Thinker是一个创新的视觉语言模型,能够同时处理图像和文本输入,并生成高质量的文本输出。该模型基于论文《SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models》的研究成果开发,专注于类似R1的推理能力。
Deepseek R1的MCP服务器实现,支持Node.js环境,提供强大的语言模型推理服务。
通过集成DeepSeek R1的推理引擎增强Claude的复杂任务处理能力
Deepseek R1的MCP服务器实现,支持与Claude Desktop集成,提供强大的语言模型推理服务。
该项目通过集成DeepSeek R1的推理引擎增强Claude的复杂任务处理能力,提供多步骤精确推理支持。
本地化运行的智能代理系统,结合推理模型与工具调用模型
一个利用Deepseek R1模型的思维链进行推理的MCP服务工具,支持在Claude Desktop等客户端中使用。
一个基于Node.js的Deepseek R1语言模型MCP服务器实现,支持8192令牌上下文窗口,提供稳定的Claude Desktop集成和模型参数配置。
Thoughtful Claude是一个增强Claude推理能力的MCP服务器,通过集成DeepSeek R1的高级推理引擎,为Claude提供复杂多步推理任务处理能力。
结合DeepSeek R1推理与Claude 3.5生成能力的MCP服务
DeepSeek R1与Claude结合的认知架构项目,通过R1进行高级推理规划,Claude执行具体分析,实现多步骤逻辑推理和结构化思维处理。
该项目通过集成DeepSeek R1的推理引擎,增强Claude处理复杂推理任务的能力,提供高效精准的多步推理解决方案。
DeepSeek MCP Server通过集成DeepSeek R1的先进推理引擎增强Claude的推理能力,使其能够处理复杂的多步推理任务。
DeepSeek MCP Server通过集成DeepSeek R1的高级推理引擎增强Claude的推理能力,使其能够处理复杂的多步推理任务。
这是一个为汽车网络安全法规提供即时查询的MCP服务器,包含完整的UNECE R155/R156法规和ISO 21434标准内容,支持自然语言搜索和合规性分析,帮助工程师和合规人员快速获取准确的法规要求。
DeepSeek-Claude MCP服务器通过整合DeepSeek R1的先进推理引擎,增强Claude处理复杂推理任务的能力。
DeepSeek MCP服务器通过集成DeepSeek R1的先进推理引擎增强Claude的推理能力,使其能够处理复杂的多步推理任务。