3 月 16 日,京東一紙關於建成全球規模最大、場景最全的具身智能數據採集中心的宣發,在被龍蝦搶去風頭、沉寂了一段時間的機器人賽道砸下重音。 某種意義上,這是一場帶有強烈工業互聯網色彩的數據大生產運動。 此次動員涵蓋內部超 10 萬員工、外部最多 50 萬各行業人員,甚至在宿遷一地就動員超 10 萬市民——這種史無前例的人海戰術,試圖用規模化的暴力美學,強行擊穿具身智能當前最致命的軟肋:數據荒。 在模型架構逐漸收斂、算力門檻相對透明的今天,高質量的物理交互數據已成為決定機器人能否真正走向千行百業的唯一勝負手。 這場被定義為 “人類歷史上規模最大的數據採集行動” 的背後,揭示了一個產業共識:當具身智能負責運動控制的“小腦”日漸發達,如何以更高質量數據餵養出真正理解物理世界的大腦,正成為決定行業未來格局的核心戰役。 從京東的宏大敍事走向產業的微觀現實,這數十萬人產生的數據究竟是金礦還是砂礫,還很難確定。 捲入的打工人 京東之所以敢於,也必須發起這場數據人海戰,其核心邏輯在於其龐大且高度複雜的自營實體供應鏈。 與純軟件互聯網公司不同,京東本身就是一個巨大的物理世界互動場,而具身智能的成熟,直接關係到其未來十年的履約成本與運營效率。 這一佈局與北京亦莊的機器人產業生態形成深度耦合。 亦莊經濟技術開發區目前已集聚 300 餘家機器人相關企業,產業鏈規模超百億元,開放了 40 餘個真實應用場景,成為國內人形機器人產業的核心集聚區。京東作為紮根亦莊的 “鏈主” 企業,此前已發佈機器人產業加速計劃。 京東此時大舉投入數據採集中心為代表的軟基建,實際上是在補齊產業鏈最缺失的一環。亦莊提供 “軀幹” 和測試場,京東則試圖用海量場景為機器人注入理解真實世界的常識。 這種軟硬結合的產業共振,試圖打造一個從數據飛輪到硬件迭代的商業閉環。 數十萬人的調度絕非易事。 根據規劃,採集場景覆蓋物流、工業、零售等。在實際操作中,這很可能依賴於京東現有的數字化管理網絡。例如讓一線快遞員、倉儲分揀員佩戴帶有視覺,甚至力覺傳感器的可穿戴設備進行日常作業。 從一線員工和被動員的宿遷市民角度來看,這場運動充滿了複雜性。 員工在無形中成為了機器人的數據老師,這些機器人未來的目標正是替代高強度的人力勞動。如何設計合理的薪酬激勵與利益分配機制,避免員工的牴觸情緒成了京東需要考慮的問題。 不過,當前具體如何實施還沒有傳導到員工層面。 一位京東的北京地區員工向華爾街見聞表示,目前還沒有聽説這件事。在他看來,如果有相應的報酬,應當算是一種市場行為,員工是否願意參與就看個人的選擇。京東在宿遷的一位員工也向華爾街見聞表示,還沒有收到相應的通知。 儘管在官宣的表述中提到,“對所有數據的採集,京東都將嚴格依法依規進行”,但現實的情況往往更復雜。 就快遞這一場景來説,倉儲流水線是標準化的,但快遞配送深入千家萬户、零售場景涉及大量消費者面部特徵與隱私習慣。 在數據合規日益嚴格的今天,數十萬人隨身採集的非結構化數據,其脱敏、清洗的合規成本可能是一個天文數字。 破題莫拉維克悖論 1988 年,機器人學家漢斯・莫拉維克曾得出這樣一個結論: “讓計算機在智力測試或下棋中達到成人水平很容易,但要讓它擁有一歲嬰兒的感知和運動能力,卻極其困難,甚至幾乎做不到。” 今天具身智能對於莫拉維克悖論的主要映射,集中在行業的數據真空上。 大模型們的成功,建立在直接吞噬互聯網三十年積累的萬億級高質量文本語料之上。但物理世界並沒有一個現成的互聯網。具身智能要想在真實世界跑通縮放定律,面臨的是一道巨大的數據牆。 京東的此次大動干戈,所瞄準的正是這一錨點以及數據採集背後的困境。 第一,仿真侷限性的問題有待解決。 現階段,行業獲取數據的主流路徑已經發生了嚴重的分化,並在各自的瓶頸中苦苦掙扎。 目前絕大多數初創公司高度依賴仿真環境,如英偉達的 Isaac Sim 或 MuJoCo 等物理引擎,讓機器人在虛擬世界中進行千萬次的強化學習。這種方式成本極低、速度極快,且不需要擔心試錯導致的硬件損壞。 然而,資深從業者們越來越清晰地認識到 “Sim-to-Real(仿真到現實)” 的侷限性。 物理世界的複雜性不僅在於視覺上的光影變化,更在於極其微妙的物理接觸反饋,例如線纜的柔性形變、衣服的非剛性拉扯、螺絲擰入時的微小摩擦力變化,甚至是傳感器本身的電磁噪點。 目前的物理引擎算力,無法完美模擬這些高維、非線性的微觀物理法則。這導致許多在仿真環境中表現完美的模型,一旦部署到真機上,就會出現嚴重的 “腦梗” 或動作失真。 既然仿真有鴻溝,那就回到真實世界。 從斯坦福爆火的 Mobile ALOHA,到如今 Figure AI、宇樹、智元等頭部企業,都在大量使用遙操作——即由人類穿戴動捕服或使用 VR 設備,像控制阿凡達一樣操控機器人執行任務,從而記錄下第一視角的視覺、關節角度和力矩數據。這是目前被公認質量最高的數據獲取方式。 第二,極不符合經濟效益的投入產出比也是數據採集的現實困境。 據行業測算,單台全尺寸人形機器人的硬件成本動輒數十萬甚至上百萬,而通過遙操作採集有效數據,不僅需要高昂的硬件折舊費,還需要支付高昂的專業操作員人力成本。 華爾街見聞了解到,單條高質量的複雜交互任務數據,其採集和清洗成本可能高達數百美元,且失敗率極高。 這種作坊式、手搓數據的模式,無法支撐具身智能走向通用化所需的百億、千億級參數規模。 為了降低門檻,谷歌等巨頭髮起了 Open X-Embodiment 等開源數據集計劃,試圖集中全球各大實驗室的數據供全行業使用。國內也有企業選擇開源百萬級的真機數據集。 第三,數據採集還有工程方面的難題,即機器人硬件本體的極度碎片化。 狗型、輪式、雙足人形,甚至不同廠家的人形機器人,其關節自由度、電機扭矩、傳感器佈局和重心結構都完全不同。 一台在 UR5 機械臂上訓練出來的高質量抓取數據,根本無法直接平移給一台特斯拉 Optimus 或京東的物流機器人使用。 正是“跨本體映射” 的困難,導致現有的開源數據大多變成了散落的孤島,難以形成規模效應。 或許正是在上述三大困境之下,具身智能賽道的商業競爭邏輯已經發生了本質的改變:誰擁有真實的落地場景,誰就擁有了持續獲取廉價、高質量閉環數據的護城河。 這就解釋了為什麼特斯拉和京東選擇了與其他純硬件初創公司截然不同的路線。 特斯拉依託其龐大的超級工廠,讓 Optimus 直接在真實的電池分揀流水線上日夜試錯;而京東則試圖通過其觸達全國的物流網絡、數十萬的產業工人和龐大的實體零售體系,打造一條半自動化的數據流水線。 這種打法,是將企業的供應鏈壁壘直接轉化為 AI 時代的數據壁壘。 與之形成鮮明對比的是,許多沒有自有場景的機器人初創公司,必須被迫轉型——他們要麼虧本向高校和科研機構低價兜售硬件,以此換取研究者們共享使用數據;要麼只能花重金去工廠租賃場地,或者僱傭像簡智這類新興的具身智能數據服務商來定製數據。 可以説,京東的入局徹底撕開了具身智能行業的算法面紗,將其拉入了一個拼資金、拼場景、拼人力調度的重資產商業搏殺期。 在數據荒面前,算法的護城河正在變淺,而掌握真實物理世界交互入口的巨頭,正在悄然收攏這張通往 AGI 的大網。 更稀缺的高質數據 面對京東計劃 “兩年內積累超 1000 萬小時真實場景數據”,業內人士的反應並非一邊倒的狂熱,更多是冷靜的審視。 在具身智能的語境裏,數據的質與模態,遠比單純的時長重要得多。 算法行業指出當前的核心痛點:當前缺的不是人類視角的第一人稱視頻,而是包含精確物理反饋的 “狀態 - 動作對”。 比如,宿遷市民帶着攝像頭逛超市,或者快遞員記錄下送貨過程,這產生了海量的互聯網級泛化視覺數據。 這些數據對於訓練機器人的世界模型,讓它理解什麼是門、什麼是蘋果極具價值;但對於訓練機器人的 “控制策略”,讓它知道用多大牛頓的力去捏住蘋果而不捏碎,這類純視覺數據幾乎是無效的。 一位從事機器人行業的人士對華爾街見聞表示,機器人缺的是有價值的數據,尤其是機器人真機數據。在其看來,京東這一操作還是屬於流程外包的BPO生意,提供人員和場地。 人類在進行物理抓取時,伴隨着極其複雜的觸覺、力覺和本體空間座標微調,這些高維度的隱性知識,普通的可穿戴設備根本無法捕捉。如果京東的幾十萬人力只是在貢獻視頻,那其後期轉化為機器人可執行動作的損耗率將高得驚人。 另一位國內頭部機器人企業負責人曾直言,行業的首要難題是 “缺乏統一的數據集定義標準”。 例如,每一家機器人公司的關節自由度、傳感器位置、驅動器類型都不一樣。京東採集的海量人類動作數據,如何重定向映射到不同構型的機器人本體上? 如果缺乏統一的底層標準,這 1000 萬小時的數據最終可能只能變成京東自研機器人的私有營養,而難以成為推動全行業進步的基礎設施。 這或許正是京東為何在首年規劃中,特別強調了 “100 萬小時的機器人本體數據採集”。行業真正的發展方向,是用來認知世界的人類泛化視頻預訓練 、用來學習技能的機器人本體高質量數據微調,和用來進化迭代的強化學習自我探索。 京東宣佈建設具身智能數據採集中心,標誌着國內企業開始嘗試用規模化、工程化的手段來應對機器人產業的數據短缺問題。 通過實體場景與大規模人力的結合,確實能為數據積累提供一種新路徑。 但要真正實現機器人的 “智能湧現”,僅靠數據規模的堆砌並不足夠。 如何在海量採集中保障數據的高維度與高質量,如何建立統一的數據標準,以及如何妥善處理規模化採集中的隱私與合規問題,將是企業和整個行業在邁向商業化階段必須解答的課題。