星河频率
2026.04.03 03:41

具身智能 PoC,需过真机这一关

portai
I'm LongbridgeAI, I can summarize articles.

超 30 起融资、约 200 亿资金,这是具身智能在 2026 年 Q1 的融资情况,超越 2025 年全年。

行业节奏快得前所未有。各家纷纷押注具身大模型,「具身大脑」成了最热关键词。

但技术路线仍未收敛,到底谁更领先,根本没法放在同一场景里比较。发布会一场接一场,Demo 视频越来越精彩,可没人能说清:这个模型究竟强在哪、强多少、在什么条件下成立。

光鲜的演示背后,是统一评测标准的缺失。现在的具身智能,不缺资本追捧,不缺宏大叙事,更不缺看似聪明的大脑,唯独缺一把能客观衡量能力、锚定真实水平的尺子。

1、Demo 刷屏背后,具身智能还未跨过真机的坎

这两年,具身智能的 Demo 刷屏不断:四足机器人翻山越岭,人形机器人完成精细操作,大模型加持下的机械臂看似无所不能。

但热闹背后,是行业普遍存在的「落地焦虑」——仿真环境里的「完美表现」,到了真实场景中往往水土不服。

在一些机器人演示案例中常常可以看到,在实验室预设场景中,机械臂能精准抓取、摆放物体,成功率高达 98%,但当测试环境调整为普通家庭厨房(物体杂乱、光线不均),成功率直接跌至 30% 以下

这种「实验室里能行,真实场景不行」的尴尬,在当前具身模型中非常普遍。

和当年 AI 领域的 ImageNet、NLP 领域的 GLUE 不同,具身智能需要的是一个在真实世界中的评测体系。

优秀的真机评测对具身模型而言,早已不是可有可无的辅助,而是决定行业能否健康发展、突破瓶颈的关键,更是破解当前行业混沌的唯一路径。

这种标准各异带来的后果,意味着研发资源在分散中内耗:

有的团队专注于单一任务优化,有的团队深耕仿真场景,但都难以突破「泛化能力」这一核心瓶颈,行业也陷入了「Demo 繁荣、落地滞后」的循环。

事实上,RoboChallenge 此前推出的 Table30 V1 版本,已通过 4 万 + 次真机测试。结果发现,即便是当前最顶尖的具身模型,30 项任务的平均成功率也只有 51%。

这不是某家公司的问题,这是行业现状。

2、Table30 V2,不堆任务,只把真机评测的「尺子」校严

RoboChallenge Table30 V2 的出现,全面面向模型泛化。

V2 的核心判断是:

评测要模拟真实环境,价值不在于任务数量,而在于能否逼出模型的真实边界。Table30 V2 完成了全面升级,它没有盲目堆加任务数量,而是精准瞄准当前具身模型的短板,突出一个模型多个任务,试图把衡量模型能力的「标尺」校得更准、更严。

在保留 12 个经典任务的基础上,Table30 V2 新增 18 个双臂灵巧操作任务,总任务数达 30 个,每一个都直击当前模型的短板。

新增任务聚焦三个方向:软体处理、工具使用和双手同步操作

  • 软体处理,考验的是模型对非刚性物体形变的理解,这是当前很多模型的「软肋」;
  • 工具使用则检验模型的泛化能力,看它能否灵活运用工具完成跨物体操作;
  • 双手同步操作则针对双臂协同的难点,测试模型的时序协调与空间感知能力。

评测机制方面,V2 强制要求单一模型应对所有 30 项任务,不允许针对单个任务单独调优——这意味着,模型必须具备真正的多任务泛化能力,而非「应试优化」,从根源上杜绝了「为评测而评测」的伪突破。

同时,V2 新增了零样本评测赛道,引入域外场景测试。简单说,就是让模型去应对从未见过的环境和物体,直接检验它的泛化边界。

除此之外,还新增了完成时间评分维度,不只看「能不能完成」,更看「完成得够不够快」,更贴近工业生产、家庭服务等真实场景部署的效率要求。

系统优化层面,V2 的系统吞吐量提升超 300%,大幅缩短了评测周期,让更多模型能在短时间内完成全量测试。

对于缺乏自有硬件的学界团队和中小企业来说,这也降低了参与评测的门槛,无需投入巨资搭建硬件测试环境,只需上传模型即可参与标准化评测,有助于形成开放、透明、可复现的行业生态。

无论是希望测试自己模型的团队、希望参与任务设计的研究者,还是希望接入评测数据的企业,Table30 V2 都提供了入口。

3、具身智能破局,靠的是行业共建而非单兵作战

回望 AI 每一次真正意义上的跃迁,背后几乎都有一个共同的推手——统一的评测基准。ImageNet 让计算机视觉从百花齐放走向可比较、可积累;

GLUE 的出现,让 NLP 研究者第一次有了共同的对话语言。基准不是终点,而是起跑线被拉齐的那一刻。

具身智能走到今天,同样到了需要「拉齐起跑线」的时候。

但这件事的难度,远比当年的 ImageNet 更高。因为它不只是标注一批图片、跑一个排行榜那么简单——它需要真机、真场景、真操作,需要有人愿意开放数据、愿意暴露自己的短板、愿意把私有标准放进公共框架里接受检验。

这是一件反商业直觉的事,却是整个行业必须有人去做的事。

Table30 V2 的意义正在于此。它不是要做一份行业排名,而是想成为一个共识生长的地方——让研究团队看清自己在泛化能力上的真实位置,让企业在选型时有据可依,让整条产业链的资源不再因为标准各异而内耗损耗。

无论是希望测试自己模型的团队、希望参与任务设计的研究者,还是希望接入评测数据的企业,Table30 V2 都提供了入口。

它将在 CVPR 2026 GigaBrain Challenge 研讨会期间正式上线,以开放的姿态邀请全球团队参与共建:校准标准、补充场景、共享数据。

只有当所有玩家都放弃私有标准,用同一把尺子衡量进步,具身智能才能迎来自己的「ChatGPT 时刻」,让机器人真正从实验室走进千行百业。

The copyright of this article belongs to the original author/organization.

The views expressed herein are solely those of the author and do not reflect the stance of the platform. The content is intended for investment reference purposes only and shall not be considered as investment advice. Please contact us if you have any questions or suggestions regarding the content services provided by the platform.