Qwen發佈全新偏好建模模型系列WorldPM模型
阿里巴巴旗下Qwen團隊宣佈推出全新偏好建模模型系列——WorldPM,包括WorldPM-72B及其衍生版本WorldPM-72B-HelpSteer2、WorldPM-72B-RLHFLow和WorldPM-72B-UltraFeedback。這一發布引發了全球AI開發者社區的廣泛關注,被認爲是偏好建模領域的重要突破。WorldPM:偏好建模的規模化新探索WorldPM(World Preference Modeling)是Qwen團隊在偏好建模領域的最新力作。根據官方介紹,該模型通過對1500萬條偏好數據的超大規模訓練,驗證了偏好建模遵循與語言建模相似的規模化定律(scaling laws)。這一發現意味着,隨着數據和模型