テンセントの混元チームと中国人民大学などが共同で、大規模言語モデルの計画能力を評価・訓練するフレームワーク「PlanningBench」をオープンソース化。30以上の計画タスクタイプをカバーし、データ生成と検証をサポート。タスク、制約、難易度を体系的に抽象化し、モデルの実践的な計画能力を評価することを目指す。....