---
title: "具身智能 PoC，需过真机这一关"
type: "Topics"
locale: "zh-HK"
url: "https://longbridge.com/zh-HK/topics/39715523.md"
description: "兄弟們，$特斯拉(TSLA.US)今天還是這麼能掉啊！$英偉達(NVDA.US)也賣飛了，真是踩坑。總的來説，$蘋果(AAPL.US)算是看出來了，臉都不要了，演都不演。大家多少的本？我進一次套一次，在虧損，今晚雄起來了？"
datetime: "2026-04-03T03:41:31.000Z"
locales:
  - [en](https://longbridge.com/en/topics/39715523.md)
  - [zh-CN](https://longbridge.com/zh-CN/topics/39715523.md)
  - [zh-HK](https://longbridge.com/zh-HK/topics/39715523.md)
author: "[星河频率](https://longbridge.com/zh-HK/profiles/8889891.md)"
---

# 具身智能 PoC，需过真机这一关

超 30 起融資、約 200 億資金，這是具身智能在 2026 年 Q1 的融資情況，超越 2025 年全年。

行業節奏快得前所未有。各家紛紛押注具身大模型，「具身大腦」成了最熱關鍵詞。

但技術路線仍未收斂，到底誰更領先，根本沒法放在同一場景裏比較。發佈會一場接一場，Demo 視頻越來越精彩，可沒人能説清：這個模型究竟強在哪、強多少、在什麼條件下成立。

光鮮的演示背後，是統一評測標準的缺失。現在的具身智能，不缺資本追捧，不缺宏大敍事，更不缺看似聰明的大腦，**唯獨缺一把能客觀衡量能力、錨定真實水平的尺子。**

**1、Demo 刷屏背後，具身智能還未跨過真機的坎**

這兩年，具身智能的 Demo 刷屏不斷：四足機器人翻山越嶺，人形機器人完成精細操作，大模型加持下的機械臂看似無所不能。

但熱鬧背後，是行業普遍存在的「落地焦慮」——仿真環境裏的「完美表現」，到了真實場景中往往水土不服。

在一些機器人演示案例中常常可以看到，在實驗室預設場景中，機械臂能精準抓取、擺放物體，成功率**高達 98%**，但當測試環境調整為普通家庭廚房（物體雜亂、光線不均），成功率直接**跌至 30% 以下**。

這種「實驗室裏能行，真實場景不行」的尷尬，在當前具身模型中非常普遍。

和當年 AI 領域的 ImageNet、NLP 領域的 GLUE 不同，具身智能需要的是一個在真實世界中的評測體系。

優秀的真機評測對具身模型而言，早已不是可有可無的輔助，而是決定行業能否健康發展、突破瓶頸的關鍵，更是破解當前行業混沌的唯一路徑。

這種標準各異帶來的後果，意味着研發資源在分散中內耗：

有的團隊專注於單一任務優化，有的團隊深耕仿真場景，但都難以突破「泛化能力」這一核心瓶頸，行業也陷入了「Demo 繁榮、落地滯後」的循環。

事實上，RoboChallenge 此前推出的 Table30 V1 版本，已通過 4 萬 + 次真機測試。結果發現，即便是當前最頂尖的具身模型，30 項任務的平均成功率也只有 51%。

這不是某家公司的問題，這是行業現狀。

**2、Table30 V2，不堆任務，只把真機評測的「尺子」校嚴**

RoboChallenge Table30 V2 的出現，全面面向模型泛化。

V2 的核心判斷是：

評測要模擬真實環境，價值不在於任務數量，而在於能否逼出模型的真實邊界。Table30 V2 完成了全面升級，它沒有盲目堆加任務數量，而是精準瞄準當前具身模型的短板，突出一個模型多個任務，試圖把衡量模型能力的「標尺」校得更準、更嚴。

在保留 12 個經典任務的基礎上，Table30 V2 新增 18 個雙臂靈巧操作任務，總任務數達 30 個，每一個都直擊當前模型的短板。

新增任務聚焦三個方向：**軟體處理、工具使用和雙手同步操作**。

-   軟體處理，考驗的是模型對非剛性物體形變的理解，這是當前很多模型的「軟肋」；
-   工具使用則檢驗模型的泛化能力，看它能否靈活運用工具完成跨物體操作；
-   雙手同步操作則針對雙臂協同的難點，測試模型的時序協調與空間感知能力。

評測機制方面，V2 強制要求單一模型應對所有 30 項任務，不允許針對單個任務單獨調優——這意味着，模型必須具備真正的多任務泛化能力，而非「應試優化」，從根源上杜絕了「為評測而評測」的偽突破。

同時，V2 新增了零樣本評測賽道，引入域外場景測試。簡單説，就是讓模型去應對從未見過的環境和物體，直接檢驗它的泛化邊界。

除此之外，還新增了完成時間評分維度，不只看「能不能完成」，更看「完成得夠不夠快」，**更貼近工業生產、家庭服務等真實場景部署的效率要求。**

系統優化層面，V2 的系統吞吐量提升超 300%，大幅縮短了評測週期，讓更多模型能在短時間內完成全量測試。

對於缺乏自有硬件的學界團隊和中小企業來説，這也降低了參與評測的門檻，無需投入巨資搭建硬件測試環境，只需上傳模型即可參與標準化評測，有助於形成開放、透明、可復現的行業生態。

無論是希望測試自己模型的團隊、希望參與任務設計的研究者，還是希望接入評測數據的企業，Table30 V2 都提供了入口。

**3、具身智能破局，靠的是行業共建而非單兵作戰**

回望 AI 每一次真正意義上的躍遷，背後幾乎都有一個共同的推手——**統一的評測基準。**ImageNet 讓計算機視覺從百花齊放走向可比較、可積累；

GLUE 的出現，讓 NLP 研究者第一次有了共同的對話語言。基**準不是終點，而是起跑線被拉齊的那一刻。**

具身智能走到今天，同樣到了需要「拉齊起跑線」的時候。

但這件事的難度，遠比當年的 ImageNet 更高。因為它不只是標註一批圖片、跑一個排行榜那麼簡單——它需要真機、真場景、真操作，需要有人願意開放數據、願意暴露自己的短板、願意把私有標準放進公共框架裏接受檢驗。

這是一件反商業直覺的事，卻是整個行業必須有人去做的事。

Table30 V2 的意義正在於此。它不是要做一份行業排名，而是想成為一個共識生長的地方——讓研究團隊看清自己在泛化能力上的真實位置，讓企業在選型時有據可依，讓整條產業鏈的資源不再因為標準各異而內耗損耗。

無論是希望測試自己模型的團隊、希望參與任務設計的研究者，還是希望接入評測數據的企業，Table30 V2 都提供了入口。

它將在 CVPR 2026 GigaBrain Challenge 研討會期間正式上線，以開放的姿態邀請全球團隊參與共建：**校準標準、補充場景、共享數據。**

只有當所有玩家都放棄私有標準，用同一把尺子衡量進步，具身智能才能迎來自己的「ChatGPT 時刻」，讓機器人真正從實驗室走進千行百業。