二阶变量
2026.06.29 07:34

VLA 沒死,世界模型才剛開始交學費

portai
我是 LongbridgeAI,我可以總結文章信息。

機器人圈這兩年換莊換得挺快。

2024 年,大家圍着 VLA 轉。

2025 年,話題變成了強化學習。

到了 2026 年,世界模型成了新頂流。

2026 年 5 月,英偉達機器人負責人 Jim Fan 在紅杉 AI Ascent 大會上連開兩場「葬禮」:第一場送別 VLA,第二場送別遙操作。

一時間行業風聲鶴唳,彷彿搞了多年 VLA 的人都押錯了方向。

然而就在宣佈 VLA 已死的同時,英偉達轉頭就先把自己的 VLA 大模型 GR00T 升級到 1.7 版本,然後又大張旗鼓地推出 VLA 大模型 EgoScale。

這隻能説明 VLA 不會死,世界模型致命死穴是運算速度太慢,計算資源太貴,至少 6 到 7 年內難以落地。

那世界模型到底是不是機器人的下一站?

今天沒人能拍胸口給出答案。

但有一件事基本可以確定:從論文到機器人,這條路,比 PPT 裏畫的遠得多。

先看一個最有説服力的案例。

我們以英偉達 2026 年 2 月發表的世界模型 DreamZero 為例。英偉達為了減少推理時間,不惜降低任務成功率,把去噪步數壓到 1,然後從系統、實現、模型三個層面做了全方位優化。

數據來源:英偉達《World Action Models are Zero-shot Policies》論文

第一層,系統優化。

CFG 並行,把擴散模型裏必須分開算的「條件分支」和「無條件分支」,拆給兩塊 GPU 同時跑,省掉一半的等待時間。

DiT 緩存更直接:如果連續兩步的運動方向足夠接近,就直接複用上一步算好的結果,硬是把 16 步去噪壓到 4 步,精度幾乎不掉。

第二層,編譯優化。

用 PyTorch 的編譯工具把 CPU 端的調度開銷砍掉,再用 CUDA Graph 把一堆小算子捏成一個大算子,整個扔給 GPU。形狀固定下來之後,只在第一條軌跡時編譯一次,後面全是直接複用,不再重新編譯。

第三層,模型優化。

這是 DreamZero-Flash 版本,把噪聲調度和去噪過程解耦,理論上一步就能出結果。

三層 buff 疊滿之後,推理速度勉強摸到 7Hz。

聽起來還行?但業內公認,10Hz 是落地的最低門檻。也就是説,英偉達用盡了優化手段,依然沒有達標。

另外還有硬件,跑出這個 7Hz 的,是兩套 GB200。每一套 GB200 板卡的價格大致是 6-7 萬美元,還不算散熱系統和機櫃。

機器人本身還需要一套把 Token 輸出轉換成電機控制信號的底層運算平台。換句話説,用英偉達的 WAM,光是計算硬件的成本,就是 15 萬美元。

英偉達自己在論文裏也承認了,原話是:

通過模型和系統優化,DreamZero 能用 2 張 GB200 跑到 7Hz,但相比目前在消費級 GPU 上能跑到 20Hz 以上的 VLA 模型,DreamZero 由於參數量大、且視頻模型的迭代去噪特性,依然計算成本高昂。

DreamZero 的參數量只有 140 億,單張 GB200 的 FP8 算力高達 10000TOPS,顯存帶寬 8000GB/s。放在三年前,這是超算級別的配置。即便如此,還是沒摸到 10Hz 這條線。

有人説,GB200 現在貴,但等上 6-7 年,價格降下來就好了。

這話聽起來挺安慰人,但經不起推敲。

最典型的例子就是英偉達的常青樹 A100——2020 年 5 月發佈,開價 1 萬美元;6 年過去,A100 的價格不僅沒降,反而還略微漲了一點。

當然,光拿英偉達一家説事,世界模型的支持者們肯定不服氣。

那是英偉達自己的實現方式有問題,換個團隊、換個架構呢?

數據來源:華為論文《DO WORLD ACTION MODELS GENERALIZE BETTER THAN VLAS? A ROBUSTNESS STUDY》

後面提到的三個模型都是世界模型,運行速度只能用一個詞形容:慘不忍睹。

LingBot-VA(RT)為了保性能,state 去噪 25 步、action 去噪 50 步,延遲高達 5230 毫秒,超過 5 秒。

為了能用,LingBot-VA(RW)砍到 3 步 state、5 步 action,延遲還是有 480 毫秒。

很遺憾,華為沒説計算平台是什麼,猜大概率是單張英偉達 RTX4090。

別小看這張 4090,它能輕鬆碾壓機器人圈常用的端側芯片 Jetson AGX Thor。換句話説,480 毫秒,已經是「拿桌面級顯卡硬剛」的結果了。

圖片來源:上海交通大學論文《Characterizing Vision-Language-Action Models across XPUs: Constraints and Acceleration for On-Robot Deployment》

上圖分析了三個具身智能 VLA 模型在不同處理器上的延遲,其中 4090 是英偉達的 RTX 4090,B60 是英特爾的顯卡(配套 CPU 是英特爾 11 代 i7-11700),310P 是華為的昇騰 310P。

2023 年推出的 RTX4090 具備壓倒性的絕對優勢,實際上 RTX4090 可以碾壓目前 99% 的端側推理用芯片。

2026 年 5 月,微軟發表論文《Offload or Overload: A Platform Measurement Study of Mobile Robotic Manipulation Workloads》,詳細分析了移動機器人的操縱 workload。

微軟在多個計算平台測試了兩種具身智能模型的推理時間:

一種是典型的 VLA 模型 PI0.5,另一種是英偉達的世界模型 DreamZero。

三個測試平台:Jetson AGX Thor T5000、常青樹 A100,還有一個 4000 美元、號稱「個人超算」的 DGX Spark。

結果是:VLA 推理是毫秒級,世界模型是秒級。這是兩百倍的差距。

DGX Spark 上推理時間長達 21.87 秒;

Jetson AGX Thor T5000 的算力是 DGX Spark 的兩倍,但性能提升微乎其微;A100 表現相對最好,也要 6.22 秒。

如果微軟沒有針對 DreamZero 做優化,GB200 和 A100 的推理速度其實相差不大,GB200 上未經優化的推理時間是 6.2 秒,而 GB200 的算力是 A100 的 16 倍。

算力堆上去了,推理時間幾乎沒縮短。

上圖來自清華大學論文《Fast-WAM: Do World Action Models Need Test-time Future Imagination?》。

在 IDM(即圖中 a 和 b)模式下,延遲高達 810 毫秒,而 PI0.5 僅 180 毫秒,這裏使用的計算平台是單張英偉達 RTX5090。

不過 Fast-WAM 只考慮單個 action chunk 的生成,且忽略了自迴歸 loop 的時間。但現實中不可能只有單個 action chunk,長序列動作會被拆分成多個 chunk。算上這部分,推理時間還是秒級的。

世界模型還有一個缺點:缺乏長時程推理。

DreamZero 架構雖然具備視覺記憶機制,但記憶跨度目前僅為短時程(約 6 秒)。

要實現穩健的長時程任務執行,至少要做到 20-30 秒。

目前有兩條技術路徑:

一是引入 System 2(慢系統)規劃器,構建模塊化雙系統架構;

二是把 WAM 的上下文窗口大幅延長,借鑑視頻生成模型里長時序一致性的相關技術。

兩條路徑都有潛力,值得並行探索。但不管走哪條,都會對計算系統造成更大壓力,推理速度只會進一步下滑。

理論上,VLA 確實不如 WAM。

VLA 是典型的模擬學習,像條件反射:系統並沒有真正「學會」技能,只是把訓練數據裏出現過的模式記住了。

WAM 走的是強化學習路線,理論上能從數據裏提煉出物理規律,舉一反三,學到的是真正的「技能」。

VLA 還有兩個硬傷。

第一,數據成本太高。

除了谷歌、阿里這種量級的玩家,大多數公司根本養不起真機數據採集,市面上大多是在 PI0 這個經典 VLA 模型上做點強化學習增強,縫縫補補。

第二,天花板已經看見了。

機器人領域最常用的測試平台 LIBERO,前十名清一色 VLA 模型,成功率全部超過或接近 99%。再往上,已經沒什麼空間了。

這就是為什麼,明知道算力賬算不過來,全行業還是在往世界模型裏砸錢。

Jim Fan 在英偉達堅持做 WAM,谷歌在做 Genie,DeepMind 在做 SIMA,Physical Intelligence 押注他們的 Pi 系列,特斯拉也沒停。

原因很簡單:VLA 這條路,已經看得到頭了。世界模型這條路,至少理論上還望不到頭。

世界模型在高精度 3D 空間任務上,比如插鑰匙、穿針、取出某一張卡片,仍然是類似 VLA 的模仿學習。

當前的多樣化預訓練策略以任務廣度為優先,可能導致高精度操作所需的密集演示數據覆蓋不足。

世界模型要想再進一步,計算量只會繼續大幅增加。高自由度機器人需要更多自由探索數據,才能學到精準的隱式逆動力學模型。

因為從未來視覺狀態到電機控制指令的映射,會隨運動學複雜度呈指數級增長。

到那個時候,就不是兩張 GB200 能搞定的了,而是要一個 300 萬美元的 NVL72 機櫃。如何量化隱式逆動力學模型的精度,仍是行業待解的難題。

那有沒有可能為世界模型設計一款專用芯片,來解決落地問題?

這又是一個雞生蛋、蛋生雞的悖論。

目前機器人真正量產落地的幾乎沒有,大多是 Demo 或科研性質,出貨量很低,能過三位數的都非常罕見。如此低的量,還要做專用芯片,成本估計比 GB200 還高。

反過來,這麼高的價格,又會進一步阻礙世界模型落地。

上圖是擴散模型的 GPU 利用率分析。Batch Size 即批處理數量,世界模型的核心就是 DiT 架構,而機器人的應用場景裏,Batch Size=1。

也就是説,GPU(也可以擴展到 NPU)的利用率只有 10-15%,效率很低。

簡單來説,矩陣運算單元天生是「批量選手」,Batch=1 這種單兵作戰的場景,它根本玩不轉。

這裏展開説一下:

在固定形狀的小矩陣塊(張量核心,GPU 和 NPU 裏的 AI 運算單元)上,把成百上千個乘加並行鋪在一片專用電路里,一條指令完成 D = A·B + C,其中 A、B、C、D 都是小矩陣(比如 16×16)。

相比標量單元逐個乘積累加,單位面積和功耗能做的乘加多出一個數量級。

但天下沒有白來的算力密度,代價是這塊電路只接受固定形狀、固定數據佈局的輸入。軟件想用上它,就不能再寫樸素的標量三重循環:

必須把矩陣切成硬件規定的瓦片,按硬件要求的佈局擺好數據再送入。

Batch=1 這種情況,張量單元沒法擺好數據,只能退到無所不能的標量處理單元上。在英偉達 GPU 裏,就是 CUDA 核心。

説到底,張量單元只能粗粒度大批量處理,沒法細粒度單一處理。

要處理 Batch=1 這種情況,最簡單的辦法就是退回 CPU 時代:每核獨立分支、循環、PC + 指令存儲 + 本地 SRAM。

這不僅適配 Batch=1,還適配 Decode、MoE 專家路由、可變長 KV cache,也就是 Agentic AI 最需要的長上下文場景。

除了 Batch=1 之外,擴散採樣算法的核心操作:詞表掃描、歸約、排序、掩碼選取——有大量的內存碎片和對齊開銷,這些延遲與採樣步數成正比。

論文《Beyond GEMM-Centric NPUs: Enabling Efficient Diffusion LLM Sampling》指出,擴散大模型採樣階段的時延佔比高達 71%,是推理的核心瓶頸。

VAE 階段,採樣步數越多通常準確度越高。Action 階段,去噪步數可以大幅壓縮,目前大部分從早期的四五十步壓縮到五到十步,甚至一步直出。

但關鍵的 VAE 階段,步數壓縮太多會導致性能大幅下降。

針對這種工作量,要採用解耦的混合精度存儲層級,分設向量、浮點、整數 SRAM,搭配專用歸約和逐元素計算單元,針對性優化採樣的非 GEMM 操作。還要通過專用解量化器,實現 HBM 與片上存儲的高效數據流轉,適配採樣的內存訪問特性。

Batch=1 和存儲碎片化,讓世界模型專用芯片的大部分面積都用來做 SRAM 存儲、分支、循環、PC+ 指令存儲,真正做運算的面積佔比必然下降。

也就是説,AI 算力遠低於同樣成本的 NPU 和 GPU。這會讓紙面數據很難看,難以打動那些只看矩陣算力數字的客户。同時 HBM 的使用,也讓其成本很難壓到 1 萬美元以下。

如果上面這些判斷成立,誰會受影響最大?

  • 英偉達自己的機器人故事,節奏會被迫放慢。一邊喊着 WAM 是未來,一邊還得靠 GR00T 這樣的 VLA 撐住現在的業務。
  • FigureAI 這類押注通用人形機器人的公司,商業化週期只能繼續拉長。
  • Physical Intelligence 們用世界模型講的估值故事,短期內不太好兑現。
  • 國內一眾機器人公司,該用 VLA 的,還是會繼續用 VLA。

芯片公司也一樣:短期內真正賣得出去的,還是 VLA 優化路線的芯片,不是世界模型專用芯片。

唯一的例外,可能是自動駕駛。

具身智能和自動駕駛領域內的世界模型,還略有不同。具身智能要考慮比較複雜的逆動力學,參數比較多,想要落地幾乎不可能。

自動駕駛領域,早期的世界模型參數都很小,甚至有低於 1 億的。近期世界模型大量使用視頻生成模型做骨架,參數暴增,落地難度也在持續增加。

但相對具身智能,自動駕駛領域還有希望,尤其是車企可以自產自用,沒有「雞生蛋蛋生雞」的悖論。

不過具身智能廠家要做世界模型專用芯片,必然面臨鉅額虧損。影響機器人落地的因素很多,不止世界模型,還有昂貴的電機、機械成本等等。

從現在能看到的論文和硬件數據看,世界模型距離機器人規模化落地,還有一段不短的距離。

未來幾年,VLA 大概率仍是主流,並且已經摸到了部分場景的天花板。

世界模型更像是一個長期的研究方向,還在尋找通往現實世界的樓梯。

兩者之間隔着的,不只是算法差距,更是硬件成本、能耗、延遲和工程複雜度。

至於這道題最後怎麼解,留給時間去回答。

本文版權歸屬原作者/機構所有。

當前內容僅代表作者觀點,與本平台立場無關。內容僅供投資者參考,亦不構成任何投資建議。如對本平台提供的內容服務有任何疑問或建議,請聯絡我們。