即使是顶尖AI模型也难以应对复杂旅行规划, OpenAI o1-preview也犯难
最近,一项新研究显示,即便是先进的 AI 语言模型,比如 OpenAI 最新的 o1-preview,在复杂的规划任务中也显得力不从心。这项研究是由复旦大学、卡内基梅隆大学、字节跳动和俄亥俄州立大学的科学家们共同进行的,测试了 AI 模型在两个规划基准上的表现:BlocksWorld 和 TravelPlanner。在 BlocksWorld 这个经典的规划任务中,大多数模型的准确率都低于50%,只有 o1-mini(略低于60%)和 o1-preview(接近100%)的表现相对较好。然而,当研究者将目光转向更复杂的 TravelPlanner 时,所有模型的表现都令人失望。