PARTNRはMeta FAIRによって公開された大規模ベンチマークであり、10万件の自然言語タスクを含み、マルチエージェント推論とプランニングの研究を目的としています。PARTNRは、大規模言語モデル(LLM)を用いてタスクを生成し、シミュレーションループによってエラーを削減します。また、現実の人間パートナーとのAIエージェント評価を、ヒューマン・イン・ザ・ループインフラを通じてサポートしています。PARTNRは、既存のLLMベースのプランナーがタスクの調整、追跡、そしてエラーからの回復において著しい限界があることを明らかにしています。人間は93%のタスクを解決できる一方、LLMはわずか30%しか解決できません。