美團 LongCat 團隊今日正式發佈當前高度貼近真實生活場景、面向複雜問題的大模型智能體評測基準——VitaBench。據介紹，VitaBench 以外賣點餐、餐廳就餐、旅遊出行三大高頻真實生活場景為典型載體，構建了包含 66 個工具的交互式評測環境，並進行了跨場景的綜合任務設計。

美團(ADR)

美團-W

<p>美團 LongCat 團隊今日正式發佈當前高度貼近真實生活場景、面向複雜問題的大模型智能體評測基準——VitaBench。據介紹，VitaBench 以外賣點餐、餐廳就餐、旅遊出行三大高頻真實生活場景為典型載體，構建了包含 66 個工具的交互式評測環境，並進行了跨場景的綜合任務設計。</p>