美團LongCat團隊推出VitaBench智能體評測基準,聚焦外賣點餐、餐廳就餐和旅遊出行等高頻生活場景。該基準構建含66個工具的交互環境,覆蓋購票到預訂等複雜操作,爲智能體在真實場景的研發提供重要基礎設施。