星河频率
2026.04.16 06:54

刷新三项世界纪录,星动纪元打破具身智能的 “楚门世界”

portai
我是 LongbridgeAI,我可以总结文章信息。

机器人马拉松,再次成了科技圈的热议焦点。

一年前还被调侃起步即摔倒的人形机器人,如今已经能在真实赛道上连续奔跑,甚至直逼人类跑步速度的上限。

这背后得益于机器人运控能力,即机器人小脑的快速进步。

如果把马拉松比作具身智能小脑的一次大考,那么这张答卷,得分正在快速攀升。

但小脑之外,还有一个更棘手、也更核心的问题,那就是机器人大脑。

跑得稳、走得快,只是机器人的身体素质,真正决定它能否成为有用工具、生产力的,是它能不能理解环境、做出决策、执行任务,也就是大脑的能力。

与运动控制领域的清晰赛道不同,在机器人大脑层面,行业至今仍缺少统一的评判标准。

各类榜单层出不穷,评测维度各不相同,有的侧重仿真环境,有的侧重单一任务,有的偏向实验室条件,导致业界始终难以形成一套公认、可信、能够真实反映模型能力的「度量衡」。

很多时候,人们看到的成果更像是精心设计的展示,而不是可复现、可泛化、可落地的真实能力。

在这样的背景下,一场足够难、足够严谨、足够贴近现实的真机测试,才是检验具身大脑模型水平的真正试金石。

于是,前 Google 资深机器人专家 Benjie Holson 创办了 Benjie's Humanoid Olympic Games(下称 Benjie's Olympics)。

它不做花哨展示,不搞宽松环境,而是用最严苛的规则,为机器人大脑的真实性能提供了一场标准化、可对比、可信任的终极大考。

如今,它已成为全球具身智能领域灵巧操作任务难度最高、最贴近实用、最拒绝表演的顶级真机赛事。

如果说马拉松是机器人小脑的大考,那么 Benjie's Olympics 就是机器人大脑真实性能的大考。

1、全球最难的具身灵巧操作赛事

Benjie Holson 创办比赛的初衷,源于他对机器人现状的不满。

他发现,市面上的机器人普遍存在四个缺陷:遥操作时手腕没有力反馈、手指运动有限、大部分机器人没有触觉、操作精度只有 1-3 厘米的中等水平。

对机器人大脑进化速度的不满意,让他设计出了这场真实且残酷的 Benjie's Olympics。

这场奥林匹克竞赛的规则设计,几乎是以淘汰大多数参赛者为目标而制定的:

  • 全自主运行,开始后无任何遥控、无人工介入
  • 必须在真实家庭场景中完成,面对真实光照、真实纹理、真实摩擦、真实噪声,没有任何实验室滤镜
  • 环境和物体完全随机摆放,不可贴标记、不可预扫描地图
  • 要求多次重复稳定完成,不是碰巧的一次成功
  • 任务未获第一,不能上榜

同时采用严格的打榜制,必须超越前冠军成绩至少 25% 才能成功夺牌,避免任何运气成分。

这样的规则组合,直接把所有依赖预设、依赖调试、依赖人工配合的演示式方案全部挡在门外,只留下真正具备通用理解与自主执行能力的具身大脑。

这场竞赛的核心逻辑是,比赛任务的难度、不确定性、鲁棒性要求,与工厂物流、家庭服务等真实场景的要求完全一致。

能通过这场考试,就意味着模型具备了真实世界干活的底层能力。

《科学美国人》杂志对这场比赛的评价是,Demo 死在这里,实用机器人从这里诞生。

事实也的确如此,Benjie Holson 赛前曾公开预测,完成全部挑战至少需要 1 年时间。然而,即便有这样的心理预期,实际比赛中的惨烈程度仍然超出了很多人的想象。

有参赛团队耗费半年打磨一个 Demo,结果在正式任务中 3 天内失败率高达 90%。

观察比赛任务,剥橘子、开锁、翻袜子、用海绵刷锅等等,这些对于人类来讲很容易的事情,对机器人却成了地狱级任务。

这背后就是具身智能领域无法绕过的莫拉维克悖论。

对人类而言困难的高阶认知任务,如下棋、解数学题,对 AI 相对容易;而人类习以为常的日常感知与动作,如叠衣服、用钥匙开锁、剥橘子,对机器人却是极高难度的挑战。

因为这些动作依赖大量无法被明确编码的直觉、经验、触觉反馈、动态预判和物理常识,而这正是当前机器人大脑最欠缺的能力。

Benjie's Olympics 的任务设计,完全瞄准这些行业公认的痛点。

第一是柔性物体操作,布料、果皮、软质食材在抓取和操作中会发生不可预测的复杂形变,机器人很难建立稳定模型,更难实现连续精准控制。

第二是毫米级精密交互,例如钥匙与锁孔对准、果皮与果肉分离,机器人必须在动态中保持极高精度,差一丝就会导致整个任务失败。

第三是多步骤长时序自主任务,从目标识别、姿态规划、抓取执行到最终完成,需要连续多轮自主决策,任何一环出错都会导致任务中断。

这三重难度叠加在一起,使得 Benjie's Olympics 成为具身智能领域灵巧操作竞赛里名副其实的「珠穆朗玛峰」。

更关键的是,这三种能力,正是机器人在工厂分拣、物流供包、精密装配、服务作业中最核心、最不可替代的能力。

赛事在考的,不仅是竞技技巧,也是真实作业的基本功。

这场赛事的权威性,也得到了全球最强具身大脑公司的 Physical Intelligence(下称 PI)的认可。

作为具身智能行业公认的教科书级前辈,斯坦福系学术背景,融资超 10 亿美元,估值超过 56 亿美元。

无论是技术积累、人才密度还是资本认可度,PI 都被视为现阶段全球最强的具身大脑公司。

而 Benjie's Olympics,是 PI 至今唯一主动参加的真机赛事。不仅如此,它还直接派出其最强的闭源模型π*0.6 参赛,用自己的最高水平来参与这场考验。

PI 的选择本身,就是对赛事难度最有力的证明,只有真正足够难、真正能检验最高水平、真正指向实用能力的赛事,才会让 PI 以最高姿态参与。

也正是 PI 的加入,让 Benjie's Olympics 不再是一场普通比赛,而是全球具身智能顶端力量的同台验证,是真正意义上的巅峰对决。

2、三项第一,全面刷新 PI 纪录

在如此严苛的规则下,想要拿下第一并刷新纪录,需要在模型能力、工程精度、泛化稳定性上形成压倒性优势。

而就是在这场全球具身智能最难真机赛事中,星动纪元凭借自研 VLA 具身智能模型,一举斩获三项任务全球第一。

在剥橘子、开锁、翻袜子任务中,表现全面超越 PI 保持的赛事纪录,创下新的世界纪录。

同时,星动纪元也成为该赛事目前唯一上榜的中国企业。

这也是星动纪元继 2 月登顶世界模型顶级权威评测 WorldArena 榜单具身任务全球第一之后,再一次以具身大脑能力刷新问鼎全球具身智能榜单。

具体成绩对比鲜明:

剥橘子作为金牌任务,星动纪元以 1 分 47 秒完成,而 PI 此前纪录为 2 分 46 秒,速度提升了 35%。

更重要的是,星动纪元实现了赛事首个无工具纯手剥操作,无需借助任何削皮刀,纯靠双手精准区分果皮与果肉的细微视觉特征,实时跟踪剥制过程中的复杂形变。

这种对柔性物体的精细感知与控制,直接对应物流分拣中软包、易碎品、异形件的稳定抓取能力。

开锁同样为金牌任务,星动纪元 49 秒完成,对比 PI 的 66 秒,速度提升 25%。

在毫米级微小目标识别、钥匙姿态理解以及克服光照变化、金属反光、视角偏差等多重干扰中展现出极致精度。

毫米级鲁棒操作能力,正是工厂精密装配、零部件插件、质检作业的核心要求。

翻袜子作为银牌任务,星动纪元用 120 个训练样本完成,对比 PI 的 176 个样本,样本量减少 32%,同时用 1 分 04 秒完成任务,速度较 PI 提升了 30%。

值得注意的是,在翻袜子操作中,星动纪元找到了更适合夹爪的翻袜方式,因此能够在减少训练样本的同时提升运行速度。

少样本快速适配、动态自适应执行,正是机器人规模化落地、快速换线、多场景复用的关键。

三个夺冠任务精准对应 VLA 模型的三大核心能力闭环,反映的是星动纪元自研 VLA 模型的集中式优势以及感知 - 决策 - 执行全链路闭环的系统性领先。

剥橘子考验机器人的视觉感知。

星动纪元通过自适应视觉注意力机制和基础模型知识迁移,让机器人能够动态追踪并实时理解果皮和果肉的动态细节,即使果皮湿滑、形变剧烈也能保持极高的稳定性。

开锁考验精密决策,异步高频推理与短时域规划策略帮助模型实现了毫米级精度。

通俗理解就是让机器人不等当前动作做完,就提前算好下一步该怎么动,而且还算得很快。

每次只看接下来的一小段轨迹,不断滚动修正,这样误差还没来得及累积就被消掉,从而实现动作又稳又准。

翻袜子任务则侧重动态执行能力。布料容易形变,可抓取点在不断变化,模型必须做到边执行边预测、边形变边调整,在这几点上,VLA 模型在动态控制与自适应执行上形成了显著领先。

总的来说,星动纪元并不是在某一个细节上做得更好,而是在从看到、想到、到做到的整个智能闭环上,实现了对当前全球顶级水平的超越。

而这套全链路能力,不只是为比赛设计,而是可以直接迁移到真实作业场景的通用能力。

3、具身大脑拿下「大满贯」,专注真干活

如果说 Benjie's Olympics 的三项第一是星动纪元在极限考试中交出的答卷,那么这份答卷的背后,是这家公司长期以来对真干活这条技术路线的坚持。

这场比赛之所以能赢,本质是因为星动纪元的模型从一开始就是为真实世界干活而训练,而不是为比赛特制。

比赛能力,也是真实干活能力的集中体现。

事实上,在参加这场奥林匹克竞赛之前,星动纪元就已经在多个维度上证明了自己。

从国际权威榜单到产业落地,从研究范式到国际认可,它早已站在了具身智能的第一梯队。

星动纪元的技术底层逻辑非常清晰,所有技术突破和奖项,最终都指向同一个目标,让机器人在真实世界里真干活。

Benjie's Olympics 的胜利不是终点,而是验证真干活能力的一次极限测试。

首先,在研究范式的选择上,星动纪元坚持端到端 VLA 路线,专注通用具身智能。

它不仅是全球首个将端到端 VLA 模型真实落地到物流场景的团队,更在范式探索上实现了多项领先。

星动纪元是全球率先提出分频 VLA 架构的玩家,通过 70 亿参数的世界模型与 4000 万参数的执行模型的快慢分层协同,大幅提升了推理效率与动态适应能力。

同时,2024 年星动纪元发布的融合世界模型的 VLA 算法框架 VPP,也是全球首个融合世界模型的具身大脑。

除此之外,星动纪元也是中国唯一,全球仅四家能够实现具身大脑精准控制全尺寸人形机器人及五指灵巧手的企业。

这些技术创新,共同构成了星动纪元在 VLA 范式上的系统性领先。

星动纪元拒绝为了短期展示而做单点 Demo 优化,更不追求实验室里的一次性成功。

它始终以可泛化、可落地、可量产、可规模化部署为目标,构建真正面向真实世界的具身大脑。

这种范式让模型天然适应真实世界的噪声、形变和不确定性,而不是依赖仿真或预设场景。

这也从根源保证,赛场表现好,现实中一定能干,因为底层架构一致、能力同源。

在坚持正确技术路线的基础上,星动纪元也早已在全球具身智能领域拿下权威榜单大满贯。

在 WorldArena 等全球最具影响力、最受行业认可的具身智能权威榜单上,星动纪元已登顶第一,持续保持全球领跑位置。

这些榜单与 Benjie's Olympics 形成互补。

权威榜单更多评测模型底层性能、泛化基准与算法上限,而 Benjie's Olympics 更侧重真实场景、随机环境、无辅助条件下的工程落地能力。

一个测极限性能,一个测真实可用,星动纪元在两条最具含金量的赛道上全部拿下第一,证明其具身大脑既拥有顶尖算法实力,也具备极强的工程化与实用化能力,是真正意义上的全优生。

而所有技术能力与赛事荣誉的最终落脚点,都是星动纪元一直坚持的真干活,在真实产业场景里规模化落地、稳定作业、创造商业价值。

目前,星动纪元具身大脑 ERA-42 已在物流、制造、商业服务等多个真实场景规模化落地,形成了场景越丰富,模型越智能的正向循环。

在物流领域,可完成药品、日化品、包裹的分拣及扫码;在制造领域,重点突破零部件抓取、高精度装配、质量检测等复杂任务;在商业服务领域,可完成门店客座清洁、物品递送、导游导览等,部分场景效率已达到 80%。

不同于多数公司仍停留在实验室与发布会 Demo,星动纪元的具身大脑早已实现从能演示到能干活的关键跨越。

订单超过 5 亿元,合作伙伴覆盖吉利、顺丰、海尔、联想等头部企业,最大一笔物流订单近五千万,海外业务占比 50%,全球市值前十科技企业中 9 家已成为其客户。

从 Benjie's Olympics 赛场到物流工厂流水线,星动纪元用同一套大脑完成了双线验证,同一套模型,既能赢下全球最难比赛,也能在工厂里 24 小时稳定干活。

比赛夺冠不是孤立成绩,而是真实干活能力在极限场景下的必然结果。

三项全球第一的成绩,再次用最严苛、最公开、最无法修饰的方式,证明了星动纪元所坚持的路线正确、技术扎实、能力可靠。

回到开头的比喻。马拉松是具身智能小脑的大考,考的是运控的稳定性、速度、抗干扰能力。

Benjie's Olympics 是大脑的大考,考的是感知、决策、执行在真实环境下的综合能力。

两场考试都很重要,但后者更难,也更接近具身智能的终极目标:让机器人真正为人类干活。

剥橘子、开锁、翻袜子,这些看似不起眼的家务活,恰恰是具身智能走向千家万户必须翻越的珠穆朗玛峰。

而这座山峰的后面,是更广阔的平原:工厂、仓库、家庭、医院、餐厅、服务场景……

从极限赛场到工厂的流水线,星动纪元证明了同一件事:真正能干活的大脑,在哪里都能干活。

而这,才是具身智能最值得期待的未来。

本文版权归属原作者/机构所有。

当前内容仅代表作者观点,与本平台立场无关。内容仅供投资者参考,亦不构成任何投资建议。如对本平台提供的内容服务有任何疑问或建议,请联系我们。