Qwen发布全新偏好建模模型系列WorldPM模型
阿里巴巴旗下Qwen团队宣布推出全新偏好建模模型系列——WorldPM,包括WorldPM-72B及其衍生版本WorldPM-72B-HelpSteer2、WorldPM-72B-RLHFLow和WorldPM-72B-UltraFeedback。这一发布引发了全球AI开发者社区的广泛关注,被认为是偏好建模领域的重要突破。WorldPM:偏好建模的规模化新探索WorldPM(World Preference Modeling)是Qwen团队在偏好建模领域的最新力作。根据官方介绍,该模型通过对1500万条偏好数据的超大规模训练,验证了偏好建模遵循与语言建模相似的规模化定律(scaling laws)。这一发现意味着,随着数据和模型