
具身智能 PoC,需过真机这一关

超 30 起融資、約 200 億資金,這是具身智能在 2026 年 Q1 的融資情況,超越 2025 年全年。
行業節奏快得前所未有。各家紛紛押注具身大模型,「具身大腦」成了最熱關鍵詞。
但技術路線仍未收斂,到底誰更領先,根本沒法放在同一場景裏比較。發佈會一場接一場,Demo 視頻越來越精彩,可沒人能説清:這個模型究竟強在哪、強多少、在什麼條件下成立。
光鮮的演示背後,是統一評測標準的缺失。現在的具身智能,不缺資本追捧,不缺宏大敍事,更不缺看似聰明的大腦,唯獨缺一把能客觀衡量能力、錨定真實水平的尺子。
1、Demo 刷屏背後,具身智能還未跨過真機的坎
這兩年,具身智能的 Demo 刷屏不斷:四足機器人翻山越嶺,人形機器人完成精細操作,大模型加持下的機械臂看似無所不能。
但熱鬧背後,是行業普遍存在的「落地焦慮」——仿真環境裏的「完美表現」,到了真實場景中往往水土不服。
在一些機器人演示案例中常常可以看到,在實驗室預設場景中,機械臂能精準抓取、擺放物體,成功率高達 98%,但當測試環境調整為普通家庭廚房(物體雜亂、光線不均),成功率直接跌至 30% 以下。
這種「實驗室裏能行,真實場景不行」的尷尬,在當前具身模型中非常普遍。
和當年 AI 領域的 ImageNet、NLP 領域的 GLUE 不同,具身智能需要的是一個在真實世界中的評測體系。
優秀的真機評測對具身模型而言,早已不是可有可無的輔助,而是決定行業能否健康發展、突破瓶頸的關鍵,更是破解當前行業混沌的唯一路徑。
這種標準各異帶來的後果,意味着研發資源在分散中內耗:
有的團隊專注於單一任務優化,有的團隊深耕仿真場景,但都難以突破「泛化能力」這一核心瓶頸,行業也陷入了「Demo 繁榮、落地滯後」的循環。
事實上,RoboChallenge 此前推出的 Table30 V1 版本,已通過 4 萬 + 次真機測試。結果發現,即便是當前最頂尖的具身模型,30 項任務的平均成功率也只有 51%。
這不是某家公司的問題,這是行業現狀。
2、Table30 V2,不堆任務,只把真機評測的「尺子」校嚴
RoboChallenge Table30 V2 的出現,全面面向模型泛化。
V2 的核心判斷是:
評測要模擬真實環境,價值不在於任務數量,而在於能否逼出模型的真實邊界。Table30 V2 完成了全面升級,它沒有盲目堆加任務數量,而是精準瞄準當前具身模型的短板,突出一個模型多個任務,試圖把衡量模型能力的「標尺」校得更準、更嚴。
在保留 12 個經典任務的基礎上,Table30 V2 新增 18 個雙臂靈巧操作任務,總任務數達 30 個,每一個都直擊當前模型的短板。
新增任務聚焦三個方向:軟體處理、工具使用和雙手同步操作。
- 軟體處理,考驗的是模型對非剛性物體形變的理解,這是當前很多模型的「軟肋」;
- 工具使用則檢驗模型的泛化能力,看它能否靈活運用工具完成跨物體操作;
- 雙手同步操作則針對雙臂協同的難點,測試模型的時序協調與空間感知能力。
評測機制方面,V2 強制要求單一模型應對所有 30 項任務,不允許針對單個任務單獨調優——這意味着,模型必須具備真正的多任務泛化能力,而非「應試優化」,從根源上杜絕了「為評測而評測」的偽突破。
同時,V2 新增了零樣本評測賽道,引入域外場景測試。簡單説,就是讓模型去應對從未見過的環境和物體,直接檢驗它的泛化邊界。
除此之外,還新增了完成時間評分維度,不只看「能不能完成」,更看「完成得夠不夠快」,更貼近工業生產、家庭服務等真實場景部署的效率要求。
系統優化層面,V2 的系統吞吐量提升超 300%,大幅縮短了評測週期,讓更多模型能在短時間內完成全量測試。
對於缺乏自有硬件的學界團隊和中小企業來説,這也降低了參與評測的門檻,無需投入巨資搭建硬件測試環境,只需上傳模型即可參與標準化評測,有助於形成開放、透明、可復現的行業生態。
無論是希望測試自己模型的團隊、希望參與任務設計的研究者,還是希望接入評測數據的企業,Table30 V2 都提供了入口。
3、具身智能破局,靠的是行業共建而非單兵作戰
回望 AI 每一次真正意義上的躍遷,背後幾乎都有一個共同的推手——統一的評測基準。ImageNet 讓計算機視覺從百花齊放走向可比較、可積累;
GLUE 的出現,讓 NLP 研究者第一次有了共同的對話語言。基準不是終點,而是起跑線被拉齊的那一刻。
具身智能走到今天,同樣到了需要「拉齊起跑線」的時候。
但這件事的難度,遠比當年的 ImageNet 更高。因為它不只是標註一批圖片、跑一個排行榜那麼簡單——它需要真機、真場景、真操作,需要有人願意開放數據、願意暴露自己的短板、願意把私有標準放進公共框架裏接受檢驗。
這是一件反商業直覺的事,卻是整個行業必須有人去做的事。
Table30 V2 的意義正在於此。它不是要做一份行業排名,而是想成為一個共識生長的地方——讓研究團隊看清自己在泛化能力上的真實位置,讓企業在選型時有據可依,讓整條產業鏈的資源不再因為標準各異而內耗損耗。
無論是希望測試自己模型的團隊、希望參與任務設計的研究者,還是希望接入評測數據的企業,Table30 V2 都提供了入口。
它將在 CVPR 2026 GigaBrain Challenge 研討會期間正式上線,以開放的姿態邀請全球團隊參與共建:校準標準、補充場景、共享數據。
只有當所有玩家都放棄私有標準,用同一把尺子衡量進步,具身智能才能迎來自己的「ChatGPT 時刻」,讓機器人真正從實驗室走進千行百業。
本文版權歸屬原作者/機構所有。
當前內容僅代表作者觀點,與本平台立場無關。內容僅供投資者參考,亦不構成任何投資建議。如對本平台提供的內容服務有任何疑問或建議,請聯絡我們。

