
具身智能 PoC,需过真机这一关

超 30 起融资、约 200 亿资金,这是具身智能在 2026 年 Q1 的融资情况,超越 2025 年全年。
行业节奏快得前所未有。各家纷纷押注具身大模型,「具身大脑」成了最热关键词。
但技术路线仍未收敛,到底谁更领先,根本没法放在同一场景里比较。发布会一场接一场,Demo 视频越来越精彩,可没人能说清:这个模型究竟强在哪、强多少、在什么条件下成立。
光鲜的演示背后,是统一评测标准的缺失。现在的具身智能,不缺资本追捧,不缺宏大叙事,更不缺看似聪明的大脑,唯独缺一把能客观衡量能力、锚定真实水平的尺子。
1、Demo 刷屏背后,具身智能还未跨过真机的坎
这两年,具身智能的 Demo 刷屏不断:四足机器人翻山越岭,人形机器人完成精细操作,大模型加持下的机械臂看似无所不能。
但热闹背后,是行业普遍存在的「落地焦虑」——仿真环境里的「完美表现」,到了真实场景中往往水土不服。
在一些机器人演示案例中常常可以看到,在实验室预设场景中,机械臂能精准抓取、摆放物体,成功率高达 98%,但当测试环境调整为普通家庭厨房(物体杂乱、光线不均),成功率直接跌至 30% 以下。
这种「实验室里能行,真实场景不行」的尴尬,在当前具身模型中非常普遍。
和当年 AI 领域的 ImageNet、NLP 领域的 GLUE 不同,具身智能需要的是一个在真实世界中的评测体系。
优秀的真机评测对具身模型而言,早已不是可有可无的辅助,而是决定行业能否健康发展、突破瓶颈的关键,更是破解当前行业混沌的唯一路径。
这种标准各异带来的后果,意味着研发资源在分散中内耗:
有的团队专注于单一任务优化,有的团队深耕仿真场景,但都难以突破「泛化能力」这一核心瓶颈,行业也陷入了「Demo 繁荣、落地滞后」的循环。
事实上,RoboChallenge 此前推出的 Table30 V1 版本,已通过 4 万 + 次真机测试。结果发现,即便是当前最顶尖的具身模型,30 项任务的平均成功率也只有 51%。
这不是某家公司的问题,这是行业现状。
2、Table30 V2,不堆任务,只把真机评测的「尺子」校严
RoboChallenge Table30 V2 的出现,全面面向模型泛化。
V2 的核心判断是:
评测要模拟真实环境,价值不在于任务数量,而在于能否逼出模型的真实边界。Table30 V2 完成了全面升级,它没有盲目堆加任务数量,而是精准瞄准当前具身模型的短板,突出一个模型多个任务,试图把衡量模型能力的「标尺」校得更准、更严。
在保留 12 个经典任务的基础上,Table30 V2 新增 18 个双臂灵巧操作任务,总任务数达 30 个,每一个都直击当前模型的短板。
新增任务聚焦三个方向:软体处理、工具使用和双手同步操作。
- 软体处理,考验的是模型对非刚性物体形变的理解,这是当前很多模型的「软肋」;
- 工具使用则检验模型的泛化能力,看它能否灵活运用工具完成跨物体操作;
- 双手同步操作则针对双臂协同的难点,测试模型的时序协调与空间感知能力。
评测机制方面,V2 强制要求单一模型应对所有 30 项任务,不允许针对单个任务单独调优——这意味着,模型必须具备真正的多任务泛化能力,而非「应试优化」,从根源上杜绝了「为评测而评测」的伪突破。
同时,V2 新增了零样本评测赛道,引入域外场景测试。简单说,就是让模型去应对从未见过的环境和物体,直接检验它的泛化边界。
除此之外,还新增了完成时间评分维度,不只看「能不能完成」,更看「完成得够不够快」,更贴近工业生产、家庭服务等真实场景部署的效率要求。
系统优化层面,V2 的系统吞吐量提升超 300%,大幅缩短了评测周期,让更多模型能在短时间内完成全量测试。
对于缺乏自有硬件的学界团队和中小企业来说,这也降低了参与评测的门槛,无需投入巨资搭建硬件测试环境,只需上传模型即可参与标准化评测,有助于形成开放、透明、可复现的行业生态。
无论是希望测试自己模型的团队、希望参与任务设计的研究者,还是希望接入评测数据的企业,Table30 V2 都提供了入口。
3、具身智能破局,靠的是行业共建而非单兵作战
回望 AI 每一次真正意义上的跃迁,背后几乎都有一个共同的推手——统一的评测基准。ImageNet 让计算机视觉从百花齐放走向可比较、可积累;
GLUE 的出现,让 NLP 研究者第一次有了共同的对话语言。基准不是终点,而是起跑线被拉齐的那一刻。
具身智能走到今天,同样到了需要「拉齐起跑线」的时候。
但这件事的难度,远比当年的 ImageNet 更高。因为它不只是标注一批图片、跑一个排行榜那么简单——它需要真机、真场景、真操作,需要有人愿意开放数据、愿意暴露自己的短板、愿意把私有标准放进公共框架里接受检验。
这是一件反商业直觉的事,却是整个行业必须有人去做的事。
Table30 V2 的意义正在于此。它不是要做一份行业排名,而是想成为一个共识生长的地方——让研究团队看清自己在泛化能力上的真实位置,让企业在选型时有据可依,让整条产业链的资源不再因为标准各异而内耗损耗。
无论是希望测试自己模型的团队、希望参与任务设计的研究者,还是希望接入评测数据的企业,Table30 V2 都提供了入口。
它将在 CVPR 2026 GigaBrain Challenge 研讨会期间正式上线,以开放的姿态邀请全球团队参与共建:校准标准、补充场景、共享数据。
只有当所有玩家都放弃私有标准,用同一把尺子衡量进步,具身智能才能迎来自己的「ChatGPT 时刻」,让机器人真正从实验室走进千行百业。
本文版权归属原作者/机构所有。
当前内容仅代表作者观点,与本平台立场无关。内容仅供投资者参考,亦不构成任何投资建议。如对本平台提供的内容服务有任何疑问或建议,请联系我们。

