---
title: "VLA 沒死，世界模型才剛開始交學費"
type: "Topics"
locale: "zh-HK"
url: "https://longbridge.com/zh-HK/topics/42273838.md"
description: "機器人圈這兩年換莊換得挺快。2024 年，大家圍着 VLA 轉。2025 年，話題變成了強化學習。到了 2026 年，世界模型成了新頂流。2026 年 5 月，英偉達機器人負責人 Jim Fan 在紅杉 AI Ascent 大會上連開兩場「葬禮」：第一場送別 VLA，第二場送別遙操作。一時間行業風聲鶴唳，彷彿搞了多年 VLA 的人都押錯了方向。然而就在宣佈 VLA 已死的同時..."
datetime: "2026-06-29T07:34:23.000Z"
locales:
  - [en](https://longbridge.com/en/topics/42273838.md)
  - [zh-CN](https://longbridge.com/zh-CN/topics/42273838.md)
  - [zh-HK](https://longbridge.com/zh-HK/topics/42273838.md)
author: "[二阶变量](https://longbridge.com/zh-HK/profiles/26519161.md)"
---

# VLA 沒死，世界模型才剛開始交學費

機器人圈這兩年換莊換得挺快。

2024 年，大家圍着 VLA 轉。

2025 年，話題變成了強化學習。

到了 2026 年，**世界模型成了新頂流。**

2026 年 5 月，英偉達機器人負責人 Jim Fan 在紅杉 AI Ascent 大會上連開兩場「葬禮」：**第一場送別 VLA，第二場送別遙操作。**

一時間行業風聲鶴唳，彷彿搞了多年 VLA 的人都押錯了方向。

然而就在宣佈 VLA 已死的同時，英偉達轉頭就先把自己的 VLA 大模型 GR00T 升級到 1.7 版本，然後又大張旗鼓地推出 VLA 大模型 EgoScale。

這隻能説明 VLA 不會死，世界模型致命死穴是運算速度太慢，計算資源太貴，至少 6 到 7 年內難以落地。

那世界模型到底是不是機器人的下一站？

今天沒人能拍胸口給出答案。

但有一件事基本可以確定：**從論文到機器人，這條路，比 PPT 裏畫的遠得多。**

先看一個最有説服力的案例。

我們以英偉達 2026 年 2 月發表的世界模型 DreamZero 為例。英偉達為了減少推理時間，不惜降低任務成功率，把去噪步數壓到 1，然後從系統、實現、模型三個層面做了全方位優化。

數據來源：英偉達《World Action Models are Zero-shot Policies》論文

**第一層，系統優化。**

CFG 並行，把擴散模型裏必須分開算的「條件分支」和「無條件分支」，拆給兩塊 GPU 同時跑，省掉一半的等待時間。

DiT 緩存更直接：如果連續兩步的運動方向足夠接近，就直接複用上一步算好的結果，硬是把 16 步去噪壓到 4 步，精度幾乎不掉。

**第二層，編譯優化。**

用 PyTorch 的編譯工具把 CPU 端的調度開銷砍掉，再用 CUDA Graph 把一堆小算子捏成一個大算子，整個扔給 GPU。形狀固定下來之後，只在第一條軌跡時編譯一次，後面全是直接複用，不再重新編譯。

**第三層，模型優化。**

這是 DreamZero-Flash 版本，把噪聲調度和去噪過程解耦，理論上一步就能出結果。

三層 buff 疊滿之後，推理速度**勉強摸到 7Hz。**

聽起來還行？但業內公認，10Hz 是落地的最低門檻。也就是説，英偉達用盡了優化手段，依然沒有達標。

另外還有硬件，跑出這個 7Hz 的，是兩套 GB200。每一套 GB200 板卡的價格大致是 6-7 萬美元，還不算散熱系統和機櫃。

機器人本身還需要一套把 Token 輸出轉換成電機控制信號的底層運算平台。換句話説，用英偉達的 WAM，光是計算硬件的成本，就是 15 萬美元。

英偉達自己在論文裏也承認了，原話是：

通過模型和系統優化，DreamZero 能用 2 張 GB200 跑到 7Hz，但相比目前在消費級 GPU 上能跑到 20Hz 以上的 VLA 模型，DreamZero 由於參數量大、且視頻模型的迭代去噪特性，依然計算成本高昂。

DreamZero 的參數量只有 140 億，單張 GB200 的 FP8 算力高達 10000TOPS，顯存帶寬 8000GB/s。放在三年前，這是超算級別的配置。即便如此，還是沒摸到 10Hz 這條線。

有人説，GB200 現在貴，但等上 6-7 年，價格降下來就好了。

這話聽起來挺安慰人，但經不起推敲。

最典型的例子就是英偉達的常青樹 A100——2020 年 5 月發佈，開價 1 萬美元；6 年過去，A100 的價格不僅沒降，反而還略微漲了一點。

當然，光拿英偉達一家説事，世界模型的支持者們肯定不服氣。

那是英偉達自己的實現方式有問題，換個團隊、換個架構呢？

數據來源：華為論文《DO WORLD ACTION MODELS GENERALIZE BETTER THAN VLAS? A ROBUSTNESS STUDY》

後面提到的三個模型都是世界模型，運行速度只能用一個詞形容：**慘不忍睹。**

LingBot-VA（RT）為了保性能，state 去噪 25 步、action 去噪 50 步，延遲高達 5230 毫秒，超過 5 秒。

為了能用，LingBot-VA（RW）砍到 3 步 state、5 步 action，延遲還是有 480 毫秒。

很遺憾，華為沒説計算平台是什麼，猜大概率是單張英偉達 RTX4090。

別小看這張 4090，它能輕鬆碾壓機器人圈常用的端側芯片 Jetson AGX Thor。換句話説，480 毫秒，已經是「拿桌面級顯卡硬剛」的結果了。

圖片來源：上海交通大學論文《Characterizing Vision-Language-Action Models across XPUs: Constraints and Acceleration for On-Robot Deployment》

上圖分析了三個具身智能 VLA 模型在不同處理器上的延遲，其中 4090 是英偉達的 RTX 4090，B60 是英特爾的顯卡（配套 CPU 是英特爾 11 代 i7-11700），310P 是華為的昇騰 310P。

2023 年推出的 RTX4090 具備壓倒性的絕對優勢，**實際上 RTX4090 可以碾壓目前 99% 的端側推理用芯片。**

2026 年 5 月，微軟發表論文《Offload or Overload: A Platform Measurement Study of Mobile Robotic Manipulation Workloads》，詳細分析了移動機器人的操縱 workload。

微軟在多個計算平台測試了兩種具身智能模型的推理時間：

一種是典型的 VLA 模型 PI0.5，另一種是英偉達的世界模型 DreamZero。

三個測試平台：**Jetson AGX Thor T5000、常青樹 A100，還有一個 4000 美元、號稱「個人超算」的 DGX Spark。**

結果是：VLA 推理是毫秒級，世界模型是秒級。**這是兩百倍的差距。**

DGX Spark 上推理時間長達 21.87 秒；

Jetson AGX Thor T5000 的算力是 DGX Spark 的兩倍，但性能提升微乎其微；A100 表現相對最好，也要 6.22 秒。

如果微軟沒有針對 DreamZero 做優化，GB200 和 A100 的推理速度其實相差不大，GB200 上未經優化的推理時間是 6.2 秒，而 GB200 的算力是 A100 的 16 倍。

算力堆上去了，推理時間幾乎沒縮短。

上圖來自清華大學論文《Fast-WAM: Do World Action Models Need Test-time Future Imagination?》。

在 IDM（即圖中 a 和 b）模式下，延遲高達 810 毫秒，而 PI0.5 僅 180 毫秒，這裏使用的計算平台是單張英偉達 RTX5090。

不過 Fast-WAM 只考慮單個 action chunk 的生成，且忽略了自迴歸 loop 的時間。但現實中不可能只有單個 action chunk，長序列動作會被拆分成多個 chunk。算上這部分，推理時間還是秒級的。

世界模型還有一個缺點：缺乏長時程推理。

DreamZero 架構雖然具備視覺記憶機制，但記憶跨度目前僅為短時程（約 6 秒）。

要實現穩健的長時程任務執行，至少要做到 20-30 秒。

目前有兩條技術路徑：

一是引入 System 2（慢系統）規劃器，構建模塊化雙系統架構；

二是把 WAM 的上下文窗口大幅延長，借鑑視頻生成模型里長時序一致性的相關技術。

兩條路徑都有潛力，值得並行探索。但不管走哪條，都會對計算系統造成更大壓力，推理速度只會進一步下滑。

理論上，VLA 確實不如 WAM。

VLA 是典型的模擬學習，像條件反射：**系統並沒有真正「學會」技能，只是把訓練數據裏出現過的模式記住了。**

WAM 走的是強化學習路線，理論上能從數據裏提煉出物理規律，舉一反三，學到的是真正的「技能」。

VLA 還有兩個硬傷。

**第一，數據成本太高。**

除了谷歌、阿里這種量級的玩家，大多數公司根本養不起真機數據採集，市面上大多是在 PI0 這個經典 VLA 模型上做點強化學習增強，縫縫補補。

**第二，天花板已經看見了。**

機器人領域最常用的測試平台 LIBERO，前十名清一色 VLA 模型，成功率全部超過或接近 99%。再往上，已經沒什麼空間了。

這就是為什麼，明知道算力賬算不過來，全行業還是在往世界模型裏砸錢。

Jim Fan 在英偉達堅持做 WAM，谷歌在做 Genie，DeepMind 在做 SIMA，Physical Intelligence 押注他們的 Pi 系列，特斯拉也沒停。

原因很簡單：VLA 這條路，已經看得到頭了。世界模型這條路，至少理論上還望不到頭。

世界模型在高精度 3D 空間任務上，比如插鑰匙、穿針、取出某一張卡片，仍然是類似 VLA 的模仿學習。

當前的多樣化預訓練策略以任務廣度為優先，可能導致高精度操作所需的密集演示數據覆蓋不足。

世界模型要想再進一步，計算量只會繼續大幅增加。高自由度機器人需要更多自由探索數據，才能學到精準的隱式逆動力學模型。

因為從未來視覺狀態到電機控制指令的映射，會隨運動學複雜度呈指數級增長。

到那個時候，就不是兩張 GB200 能搞定的了，而是要一個 300 萬美元的 NVL72 機櫃。如何量化隱式逆動力學模型的精度，仍是行業待解的難題。

那有沒有可能為世界模型設計一款專用芯片，來解決落地問題？

**這又是一個雞生蛋、蛋生雞的悖論。**

目前機器人真正量產落地的幾乎沒有，大多是 Demo 或科研性質，出貨量很低，能過三位數的都非常罕見。如此低的量，還要做專用芯片，成本估計比 GB200 還高。

反過來，這麼高的價格，又會進一步阻礙世界模型落地。

上圖是擴散模型的 GPU 利用率分析。Batch Size 即批處理數量，世界模型的核心就是 DiT 架構，而機器人的應用場景裏，Batch Size=1。

也就是説，GPU（也可以擴展到 NPU）的利用率只有 10-15%，效率很低。

簡單來説，矩陣運算單元天生是「批量選手」，Batch=1 這種單兵作戰的場景，它根本玩不轉。

這裏展開説一下：

在固定形狀的小矩陣塊（張量核心，GPU 和 NPU 裏的 AI 運算單元）上，把成百上千個乘加並行鋪在一片專用電路里，一條指令完成 **D = A·B + C**，其中 A、B、C、D 都是小矩陣（比如 16×16）。

相比標量單元逐個乘積累加，單位面積和功耗能做的乘加多出一個數量級。

但天下沒有白來的算力密度，代價是這塊電路只接受固定形狀、固定數據佈局的輸入。軟件想用上它，就不能再寫樸素的標量三重循環：

必須把矩陣切成硬件規定的瓦片，按硬件要求的佈局擺好數據再送入。

Batch=1 這種情況，張量單元沒法擺好數據，只能退到無所不能的標量處理單元上。在英偉達 GPU 裏，就是 CUDA 核心。

説到底，張量單元只能粗粒度大批量處理，沒法細粒度單一處理。

要處理 Batch=1 這種情況，最簡單的辦法就是退回 CPU 時代：每核獨立分支、循環、PC + 指令存儲 + 本地 SRAM。

這不僅適配 Batch=1，還適配 Decode、MoE 專家路由、可變長 KV cache，也就是 Agentic AI 最需要的長上下文場景。

除了 Batch=1 之外，擴散採樣算法的核心操作：詞表掃描、歸約、排序、掩碼選取——有大量的內存碎片和對齊開銷，這些延遲與採樣步數成正比。

論文《Beyond GEMM-Centric NPUs: Enabling Efficient Diffusion LLM Sampling》指出，擴散大模型採樣階段的時延佔比高達 71%，是推理的核心瓶頸。

VAE 階段，採樣步數越多通常準確度越高。Action 階段，去噪步數可以大幅壓縮，目前大部分從早期的四五十步壓縮到五到十步，甚至一步直出。

但關鍵的 VAE 階段，步數壓縮太多會導致性能大幅下降。

針對這種工作量，要採用解耦的混合精度存儲層級，分設向量、浮點、整數 SRAM，搭配專用歸約和逐元素計算單元，針對性優化採樣的非 GEMM 操作。還要通過專用解量化器，實現 HBM 與片上存儲的高效數據流轉，適配採樣的內存訪問特性。

Batch=1 和存儲碎片化，讓世界模型專用芯片的大部分面積都用來做 SRAM 存儲、分支、循環、PC+ 指令存儲，真正做運算的面積佔比必然下降。

也就是説，AI 算力遠低於同樣成本的 NPU 和 GPU。這會讓紙面數據很難看，難以打動那些只看矩陣算力數字的客户。同時 HBM 的使用，也讓其成本很難壓到 1 萬美元以下。

如果上面這些判斷成立，誰會受影響最大？

-   英偉達自己的機器人故事，節奏會被迫放慢。一邊喊着 WAM 是未來，一邊還得靠 GR00T 這樣的 VLA 撐住現在的業務。
-   FigureAI 這類押注通用人形機器人的公司，商業化週期只能繼續拉長。
-   Physical Intelligence 們用世界模型講的估值故事，短期內不太好兑現。
-   國內一眾機器人公司，該用 VLA 的，還是會繼續用 VLA。

芯片公司也一樣：短期內真正賣得出去的，還是 VLA 優化路線的芯片，不是世界模型專用芯片。

**唯一的例外，可能是自動駕駛。**

具身智能和自動駕駛領域內的世界模型，還略有不同。具身智能要考慮比較複雜的逆動力學，參數比較多，想要落地幾乎不可能。

自動駕駛領域，早期的世界模型參數都很小，甚至有低於 1 億的。近期世界模型大量使用視頻生成模型做骨架，參數暴增，落地難度也在持續增加。

但相對具身智能，自動駕駛領域還有希望，尤其是車企可以自產自用，沒有「雞生蛋蛋生雞」的悖論。

不過具身智能廠家要做世界模型專用芯片，必然面臨鉅額虧損。影響機器人落地的因素很多，不止世界模型，還有昂貴的電機、機械成本等等。

從現在能看到的論文和硬件數據看，世界模型距離機器人規模化落地，還有一段不短的距離。

未來幾年，VLA 大概率仍是主流，並且已經摸到了部分場景的天花板。

世界模型更像是一個長期的研究方向，還在尋找通往現實世界的樓梯。

兩者之間隔着的，不只是算法差距，更是**硬件成本、能耗、延遲和工程複雜度。**

至於這道題最後怎麼解，留給時間去回答。

### 相關股票

- [NVDA.US](https://longbridge.com/zh-HK/quote/NVDA.US.md)
- [HUAWEI.NA](https://longbridge.com/zh-HK/quote/HUAWEI.NA.md)
- [NVDL.US](https://longbridge.com/zh-HK/quote/NVDL.US.md)
- [07788.HK](https://longbridge.com/zh-HK/quote/07788.HK.md)
- [07388.HK](https://longbridge.com/zh-HK/quote/07388.HK.md)
- [NVDY.US](https://longbridge.com/zh-HK/quote/NVDY.US.md)
- [NVDD.US](https://longbridge.com/zh-HK/quote/NVDD.US.md)
- [NVDX.US](https://longbridge.com/zh-HK/quote/NVDX.US.md)
- [NVDQ.US](https://longbridge.com/zh-HK/quote/NVDQ.US.md)