機器人馬拉松，再次成了科技圈的熱議焦點。

一年前還被調侃起步即摔倒的人形機器人，如今已經能在真實賽道上連續奔跑，甚至直逼人類跑步速度的上限。

這背後得益於機器人運控能力，即機器人小腦的快速進步。

如果把馬拉松比作具身智能小腦的一次大考，那麼這張答卷，得分正在快速攀升。

但小腦之外，還有一個更棘手、也更核心的問題，那就是機器人大腦。

跑得穩、走得快，只是機器人的身體素質，真正決定它能否成為有用工具、生產力的，是它能不能理解環境、做出決策、執行任務，也就是大腦的能力。

與運動控制領域的清晰賽道不同，在機器人大腦層面，行業至今仍缺少統一的評判標準。

各類榜單層出不窮，評測維度各不相同，有的側重仿真環境，有的側重單一任務，有的偏向實驗室條件，導致業界始終難以形成一套公認、可信、能夠真實反映模型能力的「度量衡」。

很多時候，人們看到的成果更像是精心設計的展示，而不是可復現、可泛化、可落地的真實能力。

在這樣的背景下，一場足夠難、足夠嚴謹、足夠貼近現實的真機測試，才是檢驗具身大腦模型水平的真正試金石。

於是，前 Google 資深機器人專家 Benjie Holson 創辦了 Benjie's Humanoid Olympic Games（下稱 Benjie's Olympics）。

它不做花哨展示，不搞寬鬆環境，而是用最嚴苛的規則，為機器人大腦的真實性能提供了一場標準化、可對比、可信任的終極大考。

如今，它已成為全球具身智能領域靈巧操作任務難度最高、最貼近實用、最拒絕表演的頂級真機賽事。

如果説馬拉松是機器人小腦的大考，那麼 Benjie's Olympics 就是機器人大腦真實性能的大考。

1、全球最難的具身靈巧操作賽事

Benjie Holson 創辦比賽的初衷，源於他對機器人現狀的不滿。

他發現，市面上的機器人普遍存在四個缺陷：遙操作時手腕沒有力反饋、手指運動有限、大部分機器人沒有觸覺、操作精度只有 1-3 厘米的中等水平。

對機器人大腦進化速度的不滿意，讓他設計出了這場真實且殘酷的 Benjie's Olympics。

這場奧林匹克競賽的規則設計，幾乎是以淘汰大多數參賽者為目標而制定的：

全自主運行，開始後無任何遙控、無人工介入
必須在真實家庭場景中完成，面對真實光照、真實紋理、真實摩擦、真實噪聲，沒有任何實驗室濾鏡
環境和物體完全隨機擺放，不可貼標記、不可預掃描地圖
要求多次重複穩定完成，不是碰巧的一次成功
任務未獲第一，不能上榜

同時採用嚴格的打榜制，必須超越前冠軍成績至少 25% 才能成功奪牌，避免任何運氣成分。

這樣的規則組合，直接把所有依賴預設、依賴調試、依賴人工配合的演示式方案全部擋在門外，只留下真正具備通用理解與自主執行能力的具身大腦。

這場競賽的核心邏輯是，比賽任務的難度、不確定性、魯棒性要求，與工廠物流、家庭服務等真實場景的要求完全一致。

能通過這場考試，就意味着模型具備了真實世界幹活的底層能力。

《科學美國人》雜誌對這場比賽的評價是，Demo 死在這裏，實用機器人從這裏誕生。

事實也的確如此，Benjie Holson 賽前曾公開預測，完成全部挑戰至少需要 1 年時間。然而，即便有這樣的心理預期，實際比賽中的慘烈程度仍然超出了很多人的想象。

有參賽團隊耗費半年打磨一個 Demo，結果在正式任務中 3 天內失敗率高達 90%。

觀察比賽任務，剝橘子、開鎖、翻襪子、用海綿刷鍋等等，這些對於人類來講很容易的事情，對機器人卻成了地獄級任務。

這背後就是具身智能領域無法繞過的莫拉維克悖論。

對人類而言困難的高階認知任務，如下棋、解數學題，對 AI 相對容易；而人類習以為常的日常感知與動作，如疊衣服、用鑰匙開鎖、剝橘子，對機器人卻是極高難度的挑戰。

因為這些動作依賴大量無法被明確編碼的直覺、經驗、觸覺反饋、動態預判和物理常識，而這正是當前機器人大腦最欠缺的能力。

Benjie's Olympics 的任務設計，完全瞄準這些行業公認的痛點。

第一是柔性物體操作，布料、果皮、軟質食材在抓取和操作中會發生不可預測的複雜形變，機器人很難建立穩定模型，更難實現連續精準控制。

第二是毫米級精密交互，例如鑰匙與鎖孔對準、果皮與果肉分離，機器人必須在動態中保持極高精度，差一絲就會導致整個任務失敗。

第三是多步驟長時序自主任務，從目標識別、姿態規劃、抓取執行到最終完成，需要連續多輪自主決策，任何一環出錯都會導致任務中斷。

這三重難度疊加在一起，使得 Benjie's Olympics 成為具身智能領域靈巧操作競賽里名副其實的「珠穆朗瑪峯」。

更關鍵的是，這三種能力，正是機器人在工廠分揀、物流供包、精密裝配、服務作業中最核心、最不可替代的能力。

賽事在考的，不僅是競技技巧，也是真實作業的基本功。

這場賽事的權威性，也得到了全球最強具身大腦公司的 Physical Intelligence（下稱 PI）的認可。

作為具身智能行業公認的教科書級前輩，斯坦福系學術背景，融資超 10 億美元，估值超過 56 億美元。

無論是技術積累、人才密度還是資本認可度，PI 都被視為現階段全球最強的具身大腦公司。

而 Benjie's Olympics，是 PI 至今唯一主動參加的真機賽事。不僅如此，它還直接派出其最強的閉源模型π*0.6 參賽，用自己的最高水平來參與這場考驗。

PI 的選擇本身，就是對賽事難度最有力的證明，只有真正足夠難、真正能檢驗最高水平、真正指向實用能力的賽事，才會讓 PI 以最高姿態參與。

也正是 PI 的加入，讓 Benjie's Olympics 不再是一場普通比賽，而是全球具身智能頂端力量的同台驗證，是真正意義上的巔峯對決。

2、三項第一，全面刷新 PI 紀錄

在如此嚴苛的規則下，想要拿下第一併刷新紀錄，需要在模型能力、工程精度、泛化穩定性上形成壓倒性優勢。

而就是在這場全球具身智能最難真機賽事中，星動紀元憑藉自研 VLA 具身智能模型，一舉斬獲三項任務全球第一。

在剝橘子、開鎖、翻襪子任務中，表現全面超越 PI 保持的賽事紀錄，創下新的世界紀錄。

同時，星動紀元也成為該賽事目前唯一上榜的中國企業。

這也是星動紀元繼 2 月登頂世界模型頂級權威評測 WorldArena 榜單具身任務全球第一之後，再一次以具身大腦能力刷新問鼎全球具身智能榜單。

具體成績對比鮮明：

剝橘子作為金牌任務，星動紀元以 1 分 47 秒完成，而 PI 此前紀錄為 2 分 46 秒，速度提升了 35%。

更重要的是，星動紀元實現了賽事首個無工具純手剝操作，無需藉助任何削皮刀，純靠雙手精準區分果皮與果肉的細微視覺特徵，實時跟蹤剝製過程中的複雜形變。

這種對柔性物體的精細感知與控制，直接對應物流分揀中軟包、易碎品、異形件的穩定抓取能力。

開鎖同樣為金牌任務，星動紀元 49 秒完成，對比 PI 的 66 秒，速度提升 25%。

在毫米級微小目標識別、鑰匙姿態理解以及克服光照變化、金屬反光、視角偏差等多重干擾中展現出極致精度。

毫米級魯棒操作能力，正是工廠精密裝配、零部件插件、質檢作業的核心要求。

翻襪子作為銀牌任務，星動紀元用 120 個訓練樣本完成，對比 PI 的 176 個樣本，樣本量減少 32%，同時用 1 分 04 秒完成任務，速度較 PI 提升了 30%。

值得注意的是，在翻襪子操作中，星動紀元找到了更適合夾爪的翻襪方式，因此能夠在減少訓練樣本的同時提升運行速度。

少樣本快速適配、動態自適應執行，正是機器人規模化落地、快速換線、多場景複用的關鍵。

三個奪冠任務精準對應 VLA 模型的三大核心能力閉環，反映的是星動紀元自研 VLA 模型的集中式優勢以及感知 - 決策 - 執行全鏈路閉環的系統性領先。

剝橘子考驗機器人的視覺感知。

星動紀元通過自適應視覺注意力機制和基礎模型知識遷移，讓機器人能夠動態追蹤並實時理解果皮和果肉的動態細節，即使果皮濕滑、形變劇烈也能保持極高的穩定性。

開鎖考驗精密決策，異步高頻推理與短時域規劃策略幫助模型實現了毫米級精度。

通俗理解就是讓機器人不等當前動作做完，就提前算好下一步該怎麼動，而且還算得很快。

每次只看接下來的一小段軌跡，不斷滾動修正，這樣誤差還沒來得及累積就被消掉，從而實現動作又穩又準。

翻襪子任務則側重動態執行能力。布料容易形變，可抓取點在不斷變化，模型必須做到邊執行邊預測、邊形變邊調整，在這幾點上，VLA 模型在動態控制與自適應執行上形成了顯著領先。

總的來説，星動紀元並不是在某一個細節上做得更好，而是在從看到、想到、到做到的整個智能閉環上，實現了對當前全球頂級水平的超越。

而這套全鏈路能力，不只是為比賽設計，而是可以直接遷移到真實作業場景的通用能力。

3、具身大腦拿下「大滿貫」，專注真幹活

如果説 Benjie's Olympics 的三項第一是星動紀元在極限考試中交出的答卷，那麼這份答卷的背後，是這家公司長期以來對真幹活這條技術路線的堅持。

這場比賽之所以能贏，本質是因為星動紀元的模型從一開始就是為真實世界幹活而訓練，而不是為比賽特製。

比賽能力，也是真實幹活能力的集中體現。

事實上，在參加這場奧林匹克競賽之前，星動紀元就已經在多個維度上證明了自己。

從國際權威榜單到產業落地，從研究範式到國際認可，它早已站在了具身智能的第一梯隊。

星動紀元的技術底層邏輯非常清晰，所有技術突破和獎項，最終都指向同一個目標，讓機器人在真實世界裏真幹活。

Benjie's Olympics 的勝利不是終點，而是驗證真幹活能力的一次極限測試。

首先，在研究範式的選擇上，星動紀元堅持端到端 VLA 路線，專注通用具身智能。

它不僅是全球首個將端到端 VLA 模型真實落地到物流場景的團隊，更在範式探索上實現了多項領先。

星動紀元是全球率先提出分頻 VLA 架構的玩家，通過 70 億參數的世界模型與 4000 萬參數的執行模型的快慢分層協同，大幅提升了推理效率與動態適應能力。

同時，2024 年星動紀元發佈的融合世界模型的 VLA 算法框架 VPP，也是全球首個融合世界模型的具身大腦。

除此之外，星動紀元也是中國唯一，全球僅四家能夠實現具身大腦精準控制全尺寸人形機器人及五指靈巧手的企業。

這些技術創新，共同構成了星動紀元在 VLA 範式上的系統性領先。

星動紀元拒絕為了短期展示而做單點 Demo 優化，更不追求實驗室裏的一次性成功。

它始終以可泛化、可落地、可量產、可規模化部署為目標，構建真正面向真實世界的具身大腦。

這種範式讓模型天然適應真實世界的噪聲、形變和不確定性，而不是依賴仿真或預設場景。

這也從根源保證，賽場表現好，現實中一定能幹，因為底層架構一致、能力同源。

在堅持正確技術路線的基礎上，星動紀元也早已在全球具身智能領域拿下權威榜單大滿貫。

在 WorldArena 等全球最具影響力、最受行業認可的具身智能權威榜單上，星動紀元已登頂第一，持續保持全球領跑位置。

這些榜單與 Benjie's Olympics 形成互補。

權威榜單更多評測模型底層性能、泛化基準與算法上限，而 Benjie's Olympics 更側重真實場景、隨機環境、無輔助條件下的工程落地能力。

一個測極限性能，一個測真實可用，星動紀元在兩條最具含金量的賽道上全部拿下第一，證明其具身大腦既擁有頂尖算法實力，也具備極強的工程化與實用化能力，是真正意義上的全優生。

而所有技術能力與賽事榮譽的最終落腳點，都是星動紀元一直堅持的真幹活，在真實產業場景裏規模化落地、穩定作業、創造商業價值。

目前，星動紀元具身大腦 ERA-42 已在物流、製造、商業服務等多個真實場景規模化落地，形成了場景越豐富，模型越智能的正向循環。

在物流領域，可完成藥品、日化品、包裹的分揀及掃碼；在製造領域，重點突破零部件抓取、高精度裝配、質量檢測等複雜任務；在商業服務領域，可完成門店客座清潔、物品遞送、導遊導覽等，部分場景效率已達到 80%。

不同於多數公司仍停留在實驗室與發佈會 Demo，星動紀元的具身大腦早已實現從能演示到能幹活的關鍵跨越。

訂單超過 5 億元，合作伙伴覆蓋吉利、順豐、海爾、聯想等頭部企業，最大一筆物流訂單近五千萬，海外業務佔比 50%，全球市值前十科技企業中 9 家已成為其客户。

從 Benjie's Olympics 賽場到物流工廠流水線，星動紀元用同一套大腦完成了雙線驗證，同一套模型，既能贏下全球最難比賽，也能在工廠裏 24 小時穩定幹活。

比賽奪冠不是孤立成績，而是真實幹活能力在極限場景下的必然結果。

三項全球第一的成績，再次用最嚴苛、最公開、最無法修飾的方式，證明了星動紀元所堅持的路線正確、技術紮實、能力可靠。

回到開頭的比喻。馬拉松是具身智能小腦的大考，考的是運控的穩定性、速度、抗干擾能力。

Benjie's Olympics 是大腦的大考，考的是感知、決策、執行在真實環境下的綜合能力。

兩場考試都很重要，但後者更難，也更接近具身智能的終極目標：讓機器人真正為人類幹活。

剝橘子、開鎖、翻襪子，這些看似不起眼的家務活，恰恰是具身智能走向千家萬户必須翻越的珠穆朗瑪峯。

而這座山峯的後面，是更廣闊的平原：工廠、倉庫、家庭、醫院、餐廳、服務場景……

從極限賽場到工廠的流水線，星動紀元證明了同一件事：真正能幹活的大腦，在哪裏都能幹活。

而這，才是具身智能最值得期待的未來。

刷新三項世界紀錄，星動紀元打破具身智能的 “楚門世界”

1、全球最難的具身靈巧操作賽事

2、三項第一，全面刷新 PI 紀錄

3、具身大腦拿下「大滿貫」，專注真幹活