AIBase
首頁
AI資訊
AI產品庫
模型廣場
MCP服务
AI服務
算力市場
AI應用指南
數據集市
TW

AI資訊

查看更多

推理性能再飛躍!DeepSeek推創新技術SPCT,讓大模型更懂人心

備受矚目的中國人工智能研究實驗室DeepSeek AI,繼其強大的開源語言模型DeepSeek-R1之後,再次在大型語言模型(LLM)領域取得重大突破。近日,DeepSeek AI正式推出一項名爲自主演原則的批判調優(Self-Principled Critique Tuning,簡稱SPCT)的創新技術,旨在構建更通用、更具擴展性的AI獎勵模型(Reward Models,簡稱RMs)。這項技術有望顯著提升AI在開放式任務和複雜環境中的理解和應對能力,爲更智能的AI應用鋪平道路。背景:獎勵模型——強化學習的“指路明燈”在開發先進的LLM的過程中,強化學習(Reinfo

18.7k 昨天
推理性能再飛躍!DeepSeek推創新技術SPCT,讓大模型更懂人心

模型

查看更多

DeepSeek GRM 16B

BBQGOD

D

DeepSeek-GRM-16B 是一個基於 Self-Principled Critique Tuning (SPCT) 的生成式獎勵模型,能為查詢-響應生成透明的'原則→批判→分數'評估流程,可用於大語言模型的強化學習、評估和數據收集等任務。

自然語言處理TransformersTransformers多語言
BBQGOD
126
1
AIBase
智啟未來,您的人工智能解決方案智庫
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2025AIBase
商務合作網站地圖