AIBase
Home
AI NEWS
AI Tools
AI Models
MCP
AI Services
AI Compute
AI Tutorial
Datasets
EN

AI News

View More

清华与上海 AI Lab 联合打造新型过程奖励模型GenPRM,让小模型超越 GPT-4o

在人工智能领域,随着 OpenAI 的 o1和 DeepSeek 的 R1模型受到广泛关注,大语言模型(LLM)的推理能力和测试时扩展(TTS)技术引发了众多研究者的兴趣。然而,在处理复杂推理问题时,如何准确评估模型每一步的回答质量,依然是一个亟待解决的难题。为此,清华大学与上海 AI Lab 共同提出了生成式过程奖励模型(GenPRM),为过程监督推理提供了创新解决方案。传统的过程奖励模型(PRM)虽然能够验证推理步骤的正确性,但由于采用了标量评分机制,难以捕捉深层次的逻辑错误。此外,PRM 的判别式

12.1k 1 days ago
清华与上海 AI Lab 联合打造新型过程奖励模型GenPRM,让小模型超越 GPT-4o

Models

View More

POLAR 7B

internlm

P

POLAR-7B是基于大规模预训练的标量奖励模型,采用创新的策略判别式学习范式,能够有效区分策略并与人类偏好对齐。

自然语言处理TransformersTransformersMultiple Languages
internlm
316
15
AIBase
Empowering the future, your artificial intelligence solution think tank
English简体中文繁體中文にほんご
FirendLinks:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2025AIBase
Business CooperationSite Map