美團 LongCat 團隊今日正式發佈當前高度貼近真實生活場景、面向複雜問題的大模型智能體評測基準——VitaBench。據介紹,VitaBench 以外賣點餐、餐廳就餐、旅遊出行三大高頻真實生活場景為典型載體,構建了包含 66 個工具的交互式評測環境,並進行了跨場景的綜合任務設計。