VLA 沒死，世界模型才剛開始交學費

機器人圈這兩年換莊換得挺快。

2024 年，大家圍着 VLA 轉。

2025 年，話題變成了強化學習。

到了 2026 年，世界模型成了新頂流。

2026 年 5 月，英偉達機器人負責人 Jim Fan 在紅杉 AI Ascent 大會上連開兩場「葬禮」：第一場送別 VLA，第二場送別遙操作。

一時間行業風聲鶴唳，彷彿搞了多年 VLA 的人都押錯了方向。

然而就在宣佈 VLA 已死的同時，英偉達轉頭就先把自己的 VLA 大模型 GR00T 升級到 1.7 版本，然後又大張旗鼓地推出 VLA 大模型 EgoScale。

這隻能説明 VLA 不會死，世界模型致命死穴是運算速度太慢，計算資源太貴，至少 6 到 7 年內難以落地。

那世界模型到底是不是機器人的下一站？

今天沒人能拍胸口給出答案。

但有一件事基本可以確定：從論文到機器人，這條路，比 PPT 裏畫的遠得多。

先看一個最有説服力的案例。

我們以英偉達 2026 年 2 月發表的世界模型 DreamZero 為例。英偉達為了減少推理時間，不惜降低任務成功率，把去噪步數壓到 1，然後從系統、實現、模型三個層面做了全方位優化。

數據來源：英偉達《World Action Models are Zero-shot Policies》論文

第一層，系統優化。

CFG 並行，把擴散模型裏必須分開算的「條件分支」和「無條件分支」，拆給兩塊 GPU 同時跑，省掉一半的等待時間。

DiT 緩存更直接：如果連續兩步的運動方向足夠接近，就直接複用上一步算好的結果，硬是把 16 步去噪壓到 4 步，精度幾乎不掉。

第二層，編譯優化。

用 PyTorch 的編譯工具把 CPU 端的調度開銷砍掉，再用 CUDA Graph 把一堆小算子捏成一個大算子，整個扔給 GPU。形狀固定下來之後，只在第一條軌跡時編譯一次，後面全是直接複用，不再重新編譯。

第三層，模型優化。

這是 DreamZero-Flash 版本，把噪聲調度和去噪過程解耦，理論上一步就能出結果。

三層 buff 疊滿之後，推理速度勉強摸到 7Hz。

聽起來還行？但業內公認，10Hz 是落地的最低門檻。也就是説，英偉達用盡了優化手段，依然沒有達標。

另外還有硬件，跑出這個 7Hz 的，是兩套 GB200。每一套 GB200 板卡的價格大致是 6-7 萬美元，還不算散熱系統和機櫃。

機器人本身還需要一套把 Token 輸出轉換成電機控制信號的底層運算平台。換句話説，用英偉達的 WAM，光是計算硬件的成本，就是 15 萬美元。

英偉達自己在論文裏也承認了，原話是：

通過模型和系統優化，DreamZero 能用 2 張 GB200 跑到 7Hz，但相比目前在消費級 GPU 上能跑到 20Hz 以上的 VLA 模型，DreamZero 由於參數量大、且視頻模型的迭代去噪特性，依然計算成本高昂。

DreamZero 的參數量只有 140 億，單張 GB200 的 FP8 算力高達 10000TOPS，顯存帶寬 8000GB/s。放在三年前，這是超算級別的配置。即便如此，還是沒摸到 10Hz 這條線。

有人説，GB200 現在貴，但等上 6-7 年，價格降下來就好了。

這話聽起來挺安慰人，但經不起推敲。

最典型的例子就是英偉達的常青樹 A100——2020 年 5 月發佈，開價 1 萬美元；6 年過去，A100 的價格不僅沒降，反而還略微漲了一點。

當然，光拿英偉達一家説事，世界模型的支持者們肯定不服氣。

那是英偉達自己的實現方式有問題，換個團隊、換個架構呢？

數據來源：華為論文《DO WORLD ACTION MODELS GENERALIZE BETTER THAN VLAS? A ROBUSTNESS STUDY》

後面提到的三個模型都是世界模型，運行速度只能用一個詞形容：慘不忍睹。

LingBot-VA（RT）為了保性能，state 去噪 25 步、action 去噪 50 步，延遲高達 5230 毫秒，超過 5 秒。

為了能用，LingBot-VA（RW）砍到 3 步 state、5 步 action，延遲還是有 480 毫秒。

很遺憾，華為沒説計算平台是什麼，猜大概率是單張英偉達 RTX4090。

別小看這張 4090，它能輕鬆碾壓機器人圈常用的端側芯片 Jetson AGX Thor。換句話説，480 毫秒，已經是「拿桌面級顯卡硬剛」的結果了。

圖片來源：上海交通大學論文《Characterizing Vision-Language-Action Models across XPUs: Constraints and Acceleration for On-Robot Deployment》

上圖分析了三個具身智能 VLA 模型在不同處理器上的延遲，其中 4090 是英偉達的 RTX 4090，B60 是英特爾的顯卡（配套 CPU 是英特爾 11 代 i7-11700），310P 是華為的昇騰 310P。

2023 年推出的 RTX4090 具備壓倒性的絕對優勢，實際上 RTX4090 可以碾壓目前 99% 的端側推理用芯片。

2026 年 5 月，微軟發表論文《Offload or Overload: A Platform Measurement Study of Mobile Robotic Manipulation Workloads》，詳細分析了移動機器人的操縱 workload。

微軟在多個計算平台測試了兩種具身智能模型的推理時間：

一種是典型的 VLA 模型 PI0.5，另一種是英偉達的世界模型 DreamZero。

三個測試平台：Jetson AGX Thor T5000、常青樹 A100，還有一個 4000 美元、號稱「個人超算」的 DGX Spark。

結果是：VLA 推理是毫秒級，世界模型是秒級。這是兩百倍的差距。

DGX Spark 上推理時間長達 21.87 秒；

Jetson AGX Thor T5000 的算力是 DGX Spark 的兩倍，但性能提升微乎其微；A100 表現相對最好，也要 6.22 秒。

如果微軟沒有針對 DreamZero 做優化，GB200 和 A100 的推理速度其實相差不大，GB200 上未經優化的推理時間是 6.2 秒，而 GB200 的算力是 A100 的 16 倍。

算力堆上去了，推理時間幾乎沒縮短。

上圖來自清華大學論文《Fast-WAM: Do World Action Models Need Test-time Future Imagination?》。

在 IDM（即圖中 a 和 b）模式下，延遲高達 810 毫秒，而 PI0.5 僅 180 毫秒，這裏使用的計算平台是單張英偉達 RTX5090。

不過 Fast-WAM 只考慮單個 action chunk 的生成，且忽略了自迴歸 loop 的時間。但現實中不可能只有單個 action chunk，長序列動作會被拆分成多個 chunk。算上這部分，推理時間還是秒級的。

世界模型還有一個缺點：缺乏長時程推理。

DreamZero 架構雖然具備視覺記憶機制，但記憶跨度目前僅為短時程（約 6 秒）。

要實現穩健的長時程任務執行，至少要做到 20-30 秒。

目前有兩條技術路徑：

一是引入 System 2（慢系統）規劃器，構建模塊化雙系統架構；

二是把 WAM 的上下文窗口大幅延長，借鑑視頻生成模型里長時序一致性的相關技術。

兩條路徑都有潛力，值得並行探索。但不管走哪條，都會對計算系統造成更大壓力，推理速度只會進一步下滑。

理論上，VLA 確實不如 WAM。

VLA 是典型的模擬學習，像條件反射：系統並沒有真正「學會」技能，只是把訓練數據裏出現過的模式記住了。

WAM 走的是強化學習路線，理論上能從數據裏提煉出物理規律，舉一反三，學到的是真正的「技能」。

VLA 還有兩個硬傷。

第一，數據成本太高。

除了谷歌、阿里這種量級的玩家，大多數公司根本養不起真機數據採集，市面上大多是在 PI0 這個經典 VLA 模型上做點強化學習增強，縫縫補補。

第二，天花板已經看見了。

機器人領域最常用的測試平台 LIBERO，前十名清一色 VLA 模型，成功率全部超過或接近 99%。再往上，已經沒什麼空間了。

這就是為什麼，明知道算力賬算不過來，全行業還是在往世界模型裏砸錢。

Jim Fan 在英偉達堅持做 WAM，谷歌在做 Genie，DeepMind 在做 SIMA，Physical Intelligence 押注他們的 Pi 系列，特斯拉也沒停。

原因很簡單：VLA 這條路，已經看得到頭了。世界模型這條路，至少理論上還望不到頭。

世界模型在高精度 3D 空間任務上，比如插鑰匙、穿針、取出某一張卡片，仍然是類似 VLA 的模仿學習。

當前的多樣化預訓練策略以任務廣度為優先，可能導致高精度操作所需的密集演示數據覆蓋不足。

世界模型要想再進一步，計算量只會繼續大幅增加。高自由度機器人需要更多自由探索數據，才能學到精準的隱式逆動力學模型。

因為從未來視覺狀態到電機控制指令的映射，會隨運動學複雜度呈指數級增長。

到那個時候，就不是兩張 GB200 能搞定的了，而是要一個 300 萬美元的 NVL72 機櫃。如何量化隱式逆動力學模型的精度，仍是行業待解的難題。

那有沒有可能為世界模型設計一款專用芯片，來解決落地問題？

這又是一個雞生蛋、蛋生雞的悖論。

目前機器人真正量產落地的幾乎沒有，大多是 Demo 或科研性質，出貨量很低，能過三位數的都非常罕見。如此低的量，還要做專用芯片，成本估計比 GB200 還高。

反過來，這麼高的價格，又會進一步阻礙世界模型落地。

上圖是擴散模型的 GPU 利用率分析。Batch Size 即批處理數量，世界模型的核心就是 DiT 架構，而機器人的應用場景裏，Batch Size=1。

也就是説，GPU（也可以擴展到 NPU）的利用率只有 10-15%，效率很低。

簡單來説，矩陣運算單元天生是「批量選手」，Batch=1 這種單兵作戰的場景，它根本玩不轉。

這裏展開説一下：

在固定形狀的小矩陣塊（張量核心，GPU 和 NPU 裏的 AI 運算單元）上，把成百上千個乘加並行鋪在一片專用電路里，一條指令完成 D = A·B + C，其中 A、B、C、D 都是小矩陣（比如 16×16）。

相比標量單元逐個乘積累加，單位面積和功耗能做的乘加多出一個數量級。

但天下沒有白來的算力密度，代價是這塊電路只接受固定形狀、固定數據佈局的輸入。軟件想用上它，就不能再寫樸素的標量三重循環：

必須把矩陣切成硬件規定的瓦片，按硬件要求的佈局擺好數據再送入。

Batch=1 這種情況，張量單元沒法擺好數據，只能退到無所不能的標量處理單元上。在英偉達 GPU 裏，就是 CUDA 核心。

説到底，張量單元只能粗粒度大批量處理，沒法細粒度單一處理。

要處理 Batch=1 這種情況，最簡單的辦法就是退回 CPU 時代：每核獨立分支、循環、PC + 指令存儲 + 本地 SRAM。

這不僅適配 Batch=1，還適配 Decode、MoE 專家路由、可變長 KV cache，也就是 Agentic AI 最需要的長上下文場景。

除了 Batch=1 之外，擴散採樣算法的核心操作：詞表掃描、歸約、排序、掩碼選取——有大量的內存碎片和對齊開銷，這些延遲與採樣步數成正比。

論文《Beyond GEMM-Centric NPUs: Enabling Efficient Diffusion LLM Sampling》指出，擴散大模型採樣階段的時延佔比高達 71%，是推理的核心瓶頸。

VAE 階段，採樣步數越多通常準確度越高。Action 階段，去噪步數可以大幅壓縮，目前大部分從早期的四五十步壓縮到五到十步，甚至一步直出。

但關鍵的 VAE 階段，步數壓縮太多會導致性能大幅下降。

針對這種工作量，要採用解耦的混合精度存儲層級，分設向量、浮點、整數 SRAM，搭配專用歸約和逐元素計算單元，針對性優化採樣的非 GEMM 操作。還要通過專用解量化器，實現 HBM 與片上存儲的高效數據流轉，適配採樣的內存訪問特性。

Batch=1 和存儲碎片化，讓世界模型專用芯片的大部分面積都用來做 SRAM 存儲、分支、循環、PC+ 指令存儲，真正做運算的面積佔比必然下降。

也就是説，AI 算力遠低於同樣成本的 NPU 和 GPU。這會讓紙面數據很難看，難以打動那些只看矩陣算力數字的客户。同時 HBM 的使用，也讓其成本很難壓到 1 萬美元以下。

如果上面這些判斷成立，誰會受影響最大？

英偉達自己的機器人故事，節奏會被迫放慢。一邊喊着 WAM 是未來，一邊還得靠 GR00T 這樣的 VLA 撐住現在的業務。
FigureAI 這類押注通用人形機器人的公司，商業化週期只能繼續拉長。
Physical Intelligence 們用世界模型講的估值故事，短期內不太好兑現。
國內一眾機器人公司，該用 VLA 的，還是會繼續用 VLA。

芯片公司也一樣：短期內真正賣得出去的，還是 VLA 優化路線的芯片，不是世界模型專用芯片。

唯一的例外，可能是自動駕駛。

具身智能和自動駕駛領域內的世界模型，還略有不同。具身智能要考慮比較複雜的逆動力學，參數比較多，想要落地幾乎不可能。

自動駕駛領域，早期的世界模型參數都很小，甚至有低於 1 億的。近期世界模型大量使用視頻生成模型做骨架，參數暴增，落地難度也在持續增加。

但相對具身智能，自動駕駛領域還有希望，尤其是車企可以自產自用，沒有「雞生蛋蛋生雞」的悖論。

不過具身智能廠家要做世界模型專用芯片，必然面臨鉅額虧損。影響機器人落地的因素很多，不止世界模型，還有昂貴的電機、機械成本等等。

從現在能看到的論文和硬件數據看，世界模型距離機器人規模化落地，還有一段不短的距離。

未來幾年，VLA 大概率仍是主流，並且已經摸到了部分場景的天花板。

世界模型更像是一個長期的研究方向，還在尋找通往現實世界的樓梯。

兩者之間隔着的，不只是算法差距，更是硬件成本、能耗、延遲和工程複雜度。

至於這道題最後怎麼解，留給時間去回答。