美团LongCat团队推出VitaBench智能体评测基准,聚焦外卖点餐、餐厅就餐和旅游出行等高频生活场景。该基准构建含66个工具的交互环境,覆盖购票到预订等复杂操作,为智能体在真实场景的研发提供重要基础设施。