腾讯混元团队与中国人民大学等机构联合开源了PlanningBench,这是一个用于评测和训练大语言模型规划能力的框架。它系统化地抽象了任务、约束和难度,覆盖30多种规划任务类型,支持数据生成与验证,旨在评估模型的实际规划能力。