
具身智能,是時候跳出 “中國先研,國外帶火” 的怪圈了

大多數人不知道,關於 Scaling Law 的原始研究來自百度,而不是 OpenAI。
2014 年,Anthropic 創始人 Dario Amodei 在百度北美實驗室研究 AI 的這段時間,他摸到了大模型發展的聖盃——Scaling Law。
Dario Amodei 離開百度後加入了 OpenAI,最終 Scaling Law 在美國率先開花結果,催生了 GPT-3.5。
但百度在 2017 年發表的《Deep Learning Scaling is Predictable, Empirically》論文裏,就已經詳細討論了機器翻譯、語言建模等領域的 Scaling 現象。
當時百度的研究人員用 LSTM 代替了 Transformers,而且沒有將他們的發現命名為 Laws。
後來,ChatGPT 3.5 橫空出世,讓全球都認識了 OpenAI,也讓 LLM 徹底開始了繁榮發展。
百度的這段往事,也成為了與 Dario Amodei 同期進入百度的 MiniMax 創始人閆俊傑心裏的遺憾。
十年後的今天,當全球 AI 的聚光燈從大語言模型轉向更具挑戰的具身智能時,相似的歷史場景似乎正在重演。
中國研究者在關鍵架構上早有先見,卻常由海外團隊帶火併收穫掌聲。
但這一次,中國的具身智能玩家們已決心不再讓歷史重演。
從 VLA 模型、世界模型到強化學習,他們正在關鍵技術領域構建起完整的創新體系,以一種更系統、更深入的方式參與這場關於智能本質的競爭。
1、VLA,讓機器人擁有自主大腦
VLA 模型的核心價值,是徹底打破了傳統機器人的被動困境,將機器人從只能完成專項任務的提線木偶,升級為具備自主理解、自主決策能力的智能體。
而中國團隊在這一領域的創新探索,其實也一直走在行業前列,卻被國外團隊的熱度掩蓋。
早年的機器人技術,核心依賴兩種驅動模式,固定程序編程和模塊化控制。
這兩種方式本質上都是人定義規則、機器人執行,機器人一直是被動的工具,缺乏了主動理解能力。
隨着 LLM、VLM 技術的爆發和突破實現了先理解後生成的範式突破,模型可以在大規模文本與圖像上學到語義、常識與推理能力。
基於此,一個技術直覺出現:既然能用同一種模型去理解語言和圖像,能不能把動作也放進同一套體系裏,讓模型直接把看到、聽到的信息映射成要做什麼。
所以VLA 模型的崛起,本質上是 LLM 與 VLM 技術溢出的必然結果。
2023 年 7 月,谷歌 DeepMind 發佈模型 RT-2,第一次正式提出了 VLA 概念。
RT-2 徹底改變了機器人編程的範式,不再需要工程師為每個任務編寫複雜的控制代碼,而是讓機器人通過觀察和學習,自主生成合適的動作。
儘管 RT-2 這類 VLA 可以處理一些基本任務,但還有兩個痛點,一是面對複雜任務,推理能力不足;二是在微調和推斷上,算力成本太高。
2024 年 6 月,中國公司智平方聯合北大等機構,首次將狀態空間序列模型 Mamba 引入了 VLA 架構,推出了輕量化結構 RoboMamba。
相比之前的 VLA 模型,RoboMamba 不僅複雜度降低了,還顯著提升了長序列推理能力,直接實現了 VLA 模型效率與推理泛化能力的雙重提升。
這項論文當年入選了人工智能頂會 NeurIPS 2024,也創造了中國具身公司在 VLA 領域國際舞台的首次發聲。
如今,VLA 模型已經成為具身智能大腦發展的主流路線,而在共識之下,許多玩家也開始了一些細分思路的分流。
在端到端 VLA 模型的這個思路下,入局玩家大體上被分成了兩派,一派是採取分層端到端,另一派是純粹的端到端。
前者的代表玩家有 Figure AI、星動紀元、星海圖、星塵智能等,後者的代表玩家則是 Physical Intelligence、自變量機器人。
這裏需要釐清的是,分層屬於端到端的一種實現路徑,二者並不是對立的關係。
純粹的端到端路線的核心在於用統一或少數大模型直接從感知映射到動作決策。而分層端到端則是在內部採用系統 1、系統 2 的快慢腦方式來拆分理解任務和執行任務。
最近新發布的 Sharpa 的 CraftNet、Figure AI 的 Helix02,還在這一基礎上加入了系統 0,進一步提升機器人操作的精度和準確度,讓 VLA 模型的落地更具實用性。
然而,在目前的具身智能競爭裏,要問某項技術工作誰最具有代表性,最先被提到的總是 Physical Intelligence、Figure AI、谷歌等國外公司。
但其實中國公司在這一塊同樣付出了不少的努力,但大多陷入了中國團隊先行落地成果,最後由外國團隊帶火的情況。
例如,分層端到端架構徹底開始火源於 2025 年 2 月 Figure 的 Helix01 發佈,但早在2024 年 9 月星動紀元就已經推出了 HiRT 快慢分層架構,並且這一架構也應用到其自研端到端原生機器人大模型 ERA-42 中。
值得一提的是,ERA-42 也是國內首個實現一個具身大腦 VLA 控制機器人四肢及末端靈巧手的模型。
而自變量機器人的王潛也有相似的經歷。2024 年 10-11 月其團隊開始研發 any-to-any 模型,實現多模態輸入輸出,還同期完成具身思維鏈(COT)研發。
這與 2025 年年中 PI 發佈的π0.5 模型技術方向也存在着高度一致。
這種中國先發、海外帶火的模式,恰似 LLM 遺憾的重演,也是中國具身智能玩家必須突破的困局。
2、世界模型,讓模型真正理解物理世界
當 VLA 賦予機器人實時感知和響應的能力後,一個新的問題浮現,機器人如何像人類一樣,對物理世界有深刻的理解和預測能力。
即便最先進的 VLA 模型,本質上也屬於開環執行模式。即根據當下的視覺信息和語言指令預測動作,卻無法預判這個動作會引發什麼後果,一旦出現意外情況,就難以調整策略。
正因這個技術痛點,讓世界模型成為具身智能領域炙手可熱的研究方向,甚至有不少學者認為,世界模型是實現 AGI 的終局關鍵。
簡單來説,世界模型就是讓機器人擁有提前推演的能力。
它通過對環境的動態感知與規律學習,構建起一個虛擬的環境模型,能預測出做出某個動作後,環境會發生怎樣的變化,從而為機器人提供前瞻性的決策依據。
目前行業對世界模型尚無統一定義,不同團隊基於對認知的不同理解,走出了三條截然不同的技術路線。
以楊立昆為首的研究團隊,認為真正的智能必須像人一樣去理解為什麼。
楊立昆本人對於 LLM 能夠實現 AGI 一直存在質疑,認為語言載體存在根本性缺陷,所以他提出了基於 V-JEPA 架構的世界模型。
這類模型不依賴語言文本,而是通過學習視頻和空間數據來理解物理世界,同時具備規劃、推理和長效記憶的能力。
以李飛飛為首的 World Labs 則聚焦空間智能,讓 AI 理解物體在三維空間中的關係、遮擋、透視和運動規律。
他們開發了能夠從 2D 圖像推斷 3D 結構的系統,這條路線強調幾何一致性和物理合理性,對於機器人導航、操作等任務有直接的應用價值。
谷歌 DeepMind 的 Genie則代表了另一種思路,訓練一個能從圖像和文本生成可交互虛擬世界的模型。
目前最新的 Genie3 通過給定一段文本描述,就能生成相應的 3D 環境,這種方法通過創造多元訓練環境,讓 AI 在其中學習物理規律和互動策略。
從技術實現的角度分析:
- 楊立昆的方向最理想化,但也最難落地;
- 李飛飛的方式成本高,3D 生成也存在對物理原理的理解缺失;
- 谷歌Genie 的思路目前可執行性最高,也少不了仿真模擬到現實的 Gap。
在這場外國玩家引領的世界模型激戰裏,中國玩家並不是坐在場邊圍觀,而是早早地開始進行可操作的工程執行。
2024 年 12 月,星動紀元了發佈融合世界模型的算法框架 VPP,這也是全球首個將世界模型與 VLA 框架深度融合的算法。
星動紀元在 VPP 裏選用的世界模型思路跟谷歌 2024 年推出的 Genie1 相似,主打用視頻訓練 AI 來理解世界,因為一直以來互聯網視頻都是機器人數據的重要來源。
通過視頻擴散模型的預測視覺表徵作為機器人策略的輸入,星動紀元團隊首次在生成式視頻模型上實現通用機器人策略。
除了幫助機器人理解物理世界外,世界模型的引入也降低了機器人學習的難度,同時也能作為一種監督和提前預知的未來,觀察機器人的策略學習效果。
讓機器人直接去執行指令可能會損壞機器,同時整個檢測的複雜度也會上升,通過先驗經驗預判,如果後續操作會失敗,機器人會選擇停止策略。
2025 年 10 月,星動紀元也聯合 PI 團隊發佈論文 Ctrl-World,首次提出可控生成式世界模型,突破了傳統世界模型的單視角幻覺、動作控制不精細、長時一致性差三大瓶頸。
對於當下而言,世界模型更像輔助 VLA 模型提升綜合性能的一項技術工具。
但隨着技術路徑的不斷收斂,VLA 模型的不斷提升,包括科研成果的進一步落地,世界模型很有可能會成為繼 VLA 之後的具身智能新的主流範式。
3、強化學習,從模仿經驗到自主進化
當 VLA 模型解決了能動的問題,世界模型補齊了能預判的短板,具身智能的下一個核心訴求,就是能優化。
而強化學習,正是實現這一訴求的關鍵技術,也是當前具身智能研究中備受關注的熱點領域。
它與 VLA、世界模型形成完美互補:
- VLA 賦予機器人感知與理解的能力
- 世界模型賦予機器人預測與想象的能力
- 強化學習賦予機器人增強學習與優化的能力
強化學習的核心邏輯並不複雜,本質上是模擬人類試錯學習的過程。
通過試錯 - 獎勵的閉環機制,讓機器人自主探索動作策略,最終讓模型逐漸收斂到最優策略。
這種學習模式的最大優勢的在於,無需依賴海量的專家演示數據,也無需人工設計動作規則,機器人能通過自主探索適應未知場景,甚至發現人類未曾想到的高效策略。
早在 2016 年,AlphaGo 憑藉強化學習擊敗人類圍棋世界冠軍,就讓這項技術名聲大噪,但在具身智能領域,強化學習的落地卻長期面臨瓶頸。
早期機器人的硬件成本高昂,強化學習的試錯過程容易導致設備損耗,且真實環境中的變量複雜,難以設計合理的獎勵函數,導致強化學習在機器人領域的應用多侷限於虛擬仿真場景。
最近一年,隨着 VLA 和世界模型的發展,以及強化學習算法的優化,這項技術再次成為具身智能領域的研究熱點。
同時,這一輪強化學習的熱潮,也離不開強化學習權威、Physical Intelligence 創始人 Sergey Levine 的推動。
他帶領團隊發佈的一系列成果,不僅驗證了強化學習與 VLA 結合的潛力,更重塑了行業對具身智能訓練範式的認知。
Sergey Levine 的研究重心之一是離線強化學習,即利用已有的歷史數據訓練模型,無需機器人在真實環境中實時試錯,從而避免了設備損耗和安全風險,大幅降低了訓練成本。
其團隊最新發布的π*0.6 模型,展現了 VLA 模型性能的又一個新高,甚至在 Robot Olympic 完成了剝橘子、翻襪子、拿鑰匙開鎖等高難度動作。
但π*0.6 也反映出強化學習領域的一個核心痛點,那就是獎勵函數的設計難度太高。
複雜任務中,單個動作的價值難以量化,且不同場景下的獎勵標準差異巨大,所以π*0.6 模型不得不引入監督學習的範式輔助訓練,沒有完全發揮強化學習自主探索的優勢。
這一侷限也讓工程師們意識到,離線強化學習雖成本可控、安全性高,卻難以應對訓練數據之外的未知場景,泛化能力不足,需要引入在線強化學習,通過實時環境反饋動態優化策略。
在這個技術發展階段,中國團隊的技術突破展現出了獨特的價值。
星動紀元 2025 年 5 月發佈的iRe-VLA 框架,實現了全球首次將在線強化學習融入 VLA 模型,為解決強化學習的核心痛點提供了突破性解法。
該框架通過算法優化,在保證實時反饋的同時,將試錯風險和設備損耗降低到可接受範圍,讓機器人能在真實環境中自主探索、動態優化動作策略。
更值得一提的是,iRe-VLA 的核心思路,成為π*0.6 模型強化學習模塊的重要參考來源之一。
LLM 和具身在 RL 上的區別
在 iRe-VLA 發佈同時期,中國玩家靈初智能發佈了分層端到端 VLA+ 強化學習算法模型 Psi-R1,R1 能夠讓機器人基於 CoAT 框架的自主推理系統,攻克了開放場景下的長程複雜任務挑戰。
2025 年 11 月,由智元推出的,全球首個具身智能機器人真機強化學習技術正式投入上海一家智能設備產線,將機器人訓練週期從數週縮短至十幾分鍾,任務完成率達到 100%。
中國玩家在強化學習這一波浪潮裏,並不是追隨者,而是貢獻者,不僅有學術成果的實際影響力,更有早於國外玩家的協同的產業落地。
回顧大語言模型的發展,一個深刻的教訓是,早期洞察並不等於最終成功,從理論認識到產業領先之間,有着漫長的工程化、產品化和生態化之路。
如今,在具身智能這一被認為是物理 AI 下一個突破口的領域,中國團隊在各個關鍵技術點上已展現出與全球同行並跑的態勢。
具身智能的競爭,本質上是原創能力與落地效率的雙重競爭,更是話語權的競爭。
要拒絕 LLM 式遺憾,我們需要做好兩件事:
一是加強學術成果的市場化傳播,讓中國團隊的技術創新被行業看見、被市場認可,打破國外團隊對賽道話語權的壟斷。
二是加速技術落地迭代,通過真實場景的應用反饋優化技術,形成學術創新 - 產業落地 - 迭代升級的閉環,讓原創成果真正轉化為產品競爭力。
歷史不會簡單重複,但會押着相似的韻腳。但至少現在成功概率,中美玩家都是五五開。
本文版權歸屬原作者/機構所有。
當前內容僅代表作者觀點,與本平台立場無關。內容僅供投資者參考,亦不構成任何投資建議。如對本平台提供的內容服務有任何疑問或建議,請聯絡我們。

