即使是頂尖AI模型也難以應對複雜旅行規劃, OpenAI o1-preview也犯難
最近,一項新研究顯示,即便是先進的 AI 語言模型,比如 OpenAI 最新的 o1-preview,在複雜的規劃任務中也顯得力不從心。這項研究是由復旦大學、卡內基梅隆大學、字節跳動和俄亥俄州立大學的科學家們共同進行的,測試了 AI 模型在兩個規劃基準上的表現:BlocksWorld 和 TravelPlanner。在 BlocksWorld 這個經典的規劃任務中,大多數模型的準確率都低於50%,只有 o1-mini(略低於60%)和 o1-preview(接近100%)的表現相對較好。然而,當研究者將目光轉向更復雜的 TravelPlanner 時,所有模型的表現都令人失望。