---
title: "具身智能 PoC，需过真机这一关"
type: "Topics"
locale: "en"
url: "https://longbridge.com/en/topics/39715523.md"
description: "Bros, $Tesla(TSLA.US) is still falling so much today! $NVIDIA(NVDA.US) also missed the rally, what a trap. All in all, $Apple(AAPL.US) now I see clearly, so shameless, not even pretending. What price did everyone get in at? I get trapped every time I enter, losing money (currently). Going strong tonight?"
datetime: "2026-04-03T03:41:31.000Z"
locales:
  - [en](https://longbridge.com/en/topics/39715523.md)
  - [zh-CN](https://longbridge.com/zh-CN/topics/39715523.md)
  - [zh-HK](https://longbridge.com/zh-HK/topics/39715523.md)
author: "[星河频率](https://longbridge.com/en/profiles/8889891.md)"
---

> Supported Languages: [简体中文](https://longbridge.com/zh-CN/topics/39715523.md) | [繁體中文](https://longbridge.com/zh-HK/topics/39715523.md)


# 具身智能 PoC，需过真机这一关

超 30 起融资、约 200 亿资金，这是具身智能在 2026 年 Q1 的融资情况，超越 2025 年全年。

行业节奏快得前所未有。各家纷纷押注具身大模型，「具身大脑」成了最热关键词。

但技术路线仍未收敛，到底谁更领先，根本没法放在同一场景里比较。发布会一场接一场，Demo 视频越来越精彩，可没人能说清：这个模型究竟强在哪、强多少、在什么条件下成立。

光鲜的演示背后，是统一评测标准的缺失。现在的具身智能，不缺资本追捧，不缺宏大叙事，更不缺看似聪明的大脑，**唯独缺一把能客观衡量能力、锚定真实水平的尺子。**

**1、Demo 刷屏背后，具身智能还未跨过真机的坎**

这两年，具身智能的 Demo 刷屏不断：四足机器人翻山越岭，人形机器人完成精细操作，大模型加持下的机械臂看似无所不能。

但热闹背后，是行业普遍存在的「落地焦虑」——仿真环境里的「完美表现」，到了真实场景中往往水土不服。

在一些机器人演示案例中常常可以看到，在实验室预设场景中，机械臂能精准抓取、摆放物体，成功率**高达 98%**，但当测试环境调整为普通家庭厨房（物体杂乱、光线不均），成功率直接**跌至 30% 以下**。

这种「实验室里能行，真实场景不行」的尴尬，在当前具身模型中非常普遍。

和当年 AI 领域的 ImageNet、NLP 领域的 GLUE 不同，具身智能需要的是一个在真实世界中的评测体系。

优秀的真机评测对具身模型而言，早已不是可有可无的辅助，而是决定行业能否健康发展、突破瓶颈的关键，更是破解当前行业混沌的唯一路径。

这种标准各异带来的后果，意味着研发资源在分散中内耗：

有的团队专注于单一任务优化，有的团队深耕仿真场景，但都难以突破「泛化能力」这一核心瓶颈，行业也陷入了「Demo 繁荣、落地滞后」的循环。

事实上，RoboChallenge 此前推出的 Table30 V1 版本，已通过 4 万 + 次真机测试。结果发现，即便是当前最顶尖的具身模型，30 项任务的平均成功率也只有 51%。

这不是某家公司的问题，这是行业现状。

**2、Table30 V2，不堆任务，只把真机评测的「尺子」校严**

RoboChallenge Table30 V2 的出现，全面面向模型泛化。

V2 的核心判断是：

评测要模拟真实环境，价值不在于任务数量，而在于能否逼出模型的真实边界。Table30 V2 完成了全面升级，它没有盲目堆加任务数量，而是精准瞄准当前具身模型的短板，突出一个模型多个任务，试图把衡量模型能力的「标尺」校得更准、更严。

在保留 12 个经典任务的基础上，Table30 V2 新增 18 个双臂灵巧操作任务，总任务数达 30 个，每一个都直击当前模型的短板。

新增任务聚焦三个方向：**软体处理、工具使用和双手同步操作**。

-   软体处理，考验的是模型对非刚性物体形变的理解，这是当前很多模型的「软肋」；
-   工具使用则检验模型的泛化能力，看它能否灵活运用工具完成跨物体操作；
-   双手同步操作则针对双臂协同的难点，测试模型的时序协调与空间感知能力。

评测机制方面，V2 强制要求单一模型应对所有 30 项任务，不允许针对单个任务单独调优——这意味着，模型必须具备真正的多任务泛化能力，而非「应试优化」，从根源上杜绝了「为评测而评测」的伪突破。

同时，V2 新增了零样本评测赛道，引入域外场景测试。简单说，就是让模型去应对从未见过的环境和物体，直接检验它的泛化边界。

除此之外，还新增了完成时间评分维度，不只看「能不能完成」，更看「完成得够不够快」，**更贴近工业生产、家庭服务等真实场景部署的效率要求。**

系统优化层面，V2 的系统吞吐量提升超 300%，大幅缩短了评测周期，让更多模型能在短时间内完成全量测试。

对于缺乏自有硬件的学界团队和中小企业来说，这也降低了参与评测的门槛，无需投入巨资搭建硬件测试环境，只需上传模型即可参与标准化评测，有助于形成开放、透明、可复现的行业生态。

无论是希望测试自己模型的团队、希望参与任务设计的研究者，还是希望接入评测数据的企业，Table30 V2 都提供了入口。

**3、具身智能破局，靠的是行业共建而非单兵作战**

回望 AI 每一次真正意义上的跃迁，背后几乎都有一个共同的推手——**统一的评测基准。**ImageNet 让计算机视觉从百花齐放走向可比较、可积累；

GLUE 的出现，让 NLP 研究者第一次有了共同的对话语言。基**准不是终点，而是起跑线被拉齐的那一刻。**

具身智能走到今天，同样到了需要「拉齐起跑线」的时候。

但这件事的难度，远比当年的 ImageNet 更高。因为它不只是标注一批图片、跑一个排行榜那么简单——它需要真机、真场景、真操作，需要有人愿意开放数据、愿意暴露自己的短板、愿意把私有标准放进公共框架里接受检验。

这是一件反商业直觉的事，却是整个行业必须有人去做的事。

Table30 V2 的意义正在于此。它不是要做一份行业排名，而是想成为一个共识生长的地方——让研究团队看清自己在泛化能力上的真实位置，让企业在选型时有据可依，让整条产业链的资源不再因为标准各异而内耗损耗。

无论是希望测试自己模型的团队、希望参与任务设计的研究者，还是希望接入评测数据的企业，Table30 V2 都提供了入口。

它将在 CVPR 2026 GigaBrain Challenge 研讨会期间正式上线，以开放的姿态邀请全球团队参与共建：**校准标准、补充场景、共享数据。**

只有当所有玩家都放弃私有标准，用同一把尺子衡量进步，具身智能才能迎来自己的「ChatGPT 时刻」，让机器人真正从实验室走进千行百业。