AIBase
首页
AI资讯
AI产品库
模型广场
MCP服务
AI服务
算力市场
数据集市
AI应用指南
ZH

AI资讯

查看更多

推理性能再飞跃!DeepSeek推创新技术SPCT,让大模型更懂人心

备受瞩目的中国人工智能研究实验室DeepSeek AI,继其强大的开源语言模型DeepSeek-R1之后,再次在大型语言模型(LLM)领域取得重大突破。近日,DeepSeek AI正式推出一项名为自主演原则的批判调优(Self-Principled Critique Tuning,简称SPCT)的创新技术,旨在构建更通用、更具扩展性的AI奖励模型(Reward Models,简称RMs)。这项技术有望显著提升AI在开放式任务和复杂环境中的理解和应对能力,为更智能的AI应用铺平道路。背景:奖励模型——强化学习的“指路明灯”在开发先进的LLM的过程中,强化学习(Reinfo

18.5k 1 天前
推理性能再飞跃!DeepSeek推创新技术SPCT,让大模型更懂人心

AI产品

查看更多
Self-Rewarding Language Models

Self-Rewarding Language Models

语言模型自我奖励训练

AI模型
6.7k

模型

查看更多

Llama2 7b Ultrafeedback Rm

miulab

L

LLaMA-2 Reward Model是基于LLaMA-2-7B架构训练的奖励模型,通过模型融合技术为奖励模型赋予领域知识。该模型在argilla/ultrafeedback-binarized-preferences-cleaned数据集上训练,专门用于文本分类任务,具有重要的研究和应用价值。

自然语言处理SafetensorsSafetensors英语
miulab
350
1
AIBase
智启未来,您的人工智能解决方案智库
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2025AIBase
商务合作网站地图