AIBase
首页
AI资讯
AI产品库
模型广场
MCP服务
AI服务
算力市场
AI应用指南
数据集市
ZH

AI资讯

查看更多

推理性能再飞跃!DeepSeek推创新技术SPCT,让大模型更懂人心

备受瞩目的中国人工智能研究实验室DeepSeek AI,继其强大的开源语言模型DeepSeek-R1之后,再次在大型语言模型(LLM)领域取得重大突破。近日,DeepSeek AI正式推出一项名为自主演原则的批判调优(Self-Principled Critique Tuning,简称SPCT)的创新技术,旨在构建更通用、更具扩展性的AI奖励模型(Reward Models,简称RMs)。这项技术有望显著提升AI在开放式任务和复杂环境中的理解和应对能力,为更智能的AI应用铺平道路。背景:奖励模型——强化学习的“指路明灯”在开发先进的LLM的过程中,强化学习(Reinfo

18.7k 1 天前
推理性能再飞跃!DeepSeek推创新技术SPCT,让大模型更懂人心

模型

查看更多

DeepSeek GRM 16B

BBQGOD

D

DeepSeek-GRM-16B 是一个基于 Self-Principled Critique Tuning (SPCT) 的生成式奖励模型,能为查询-响应生成透明的'原则→批判→分数'评估流程,可用于大语言模型的强化学习、评估和数据收集等任务。

自然语言处理TransformersTransformers支持多种语言
BBQGOD
126
1
AIBase
智启未来,您的人工智能解决方案智库
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2025AIBase
商务合作网站地图