---
title: "VLA 没死，世界模型才刚开始交学费"
type: "Topics"
locale: "zh-CN"
url: "https://longbridge.com/zh-CN/topics/42273838.md"
description: "机器人圈这两年换庄换得挺快。2024 年，大家围着 VLA 转。2025 年，话题变成了强化学习。到了 2026 年，世界模型成了新顶流。2026 年 5 月，英伟达机器人负责人 Jim Fan 在红杉 AI Ascent 大会上连开两场「葬礼」：第一场送别 VLA，第二场送别遥操作。一时间行业风声鹤唳，仿佛搞了多年 VLA 的人都押错了方向。然而就在宣布 VLA 已死的同时..."
datetime: "2026-06-29T07:34:23.000Z"
locales:
  - [en](https://longbridge.com/en/topics/42273838.md)
  - [zh-CN](https://longbridge.com/zh-CN/topics/42273838.md)
  - [zh-HK](https://longbridge.com/zh-HK/topics/42273838.md)
author: "[二阶变量](https://longbridge.com/zh-CN/profiles/26519161.md)"
---

# VLA 没死，世界模型才刚开始交学费

机器人圈这两年换庄换得挺快。

2024 年，大家围着 VLA 转。

2025 年，话题变成了强化学习。

到了 2026 年，**世界模型成了新顶流。**

2026 年 5 月，英伟达机器人负责人 Jim Fan 在红杉 AI Ascent 大会上连开两场「葬礼」：**第一场送别 VLA，第二场送别遥操作。**

一时间行业风声鹤唳，仿佛搞了多年 VLA 的人都押错了方向。

然而就在宣布 VLA 已死的同时，英伟达转头就先把自己的 VLA 大模型 GR00T 升级到 1.7 版本，然后又大张旗鼓地推出 VLA 大模型 EgoScale。

这只能说明 VLA 不会死，世界模型致命死穴是运算速度太慢，计算资源太贵，至少 6 到 7 年内难以落地。

那世界模型到底是不是机器人的下一站？

今天没人能拍胸口给出答案。

但有一件事基本可以确定：**从论文到机器人，这条路，比 PPT 里画的远得多。**

先看一个最有说服力的案例。

我们以英伟达 2026 年 2 月发表的世界模型 DreamZero 为例。英伟达为了减少推理时间，不惜降低任务成功率，把去噪步数压到 1，然后从系统、实现、模型三个层面做了全方位优化。

数据来源：英伟达《World Action Models are Zero-shot Policies》论文

**第一层，系统优化。**

CFG 并行，把扩散模型里必须分开算的「条件分支」和「无条件分支」，拆给两块 GPU 同时跑，省掉一半的等待时间。

DiT 缓存更直接：如果连续两步的运动方向足够接近，就直接复用上一步算好的结果，硬是把 16 步去噪压到 4 步，精度几乎不掉。

**第二层，编译优化。**

用 PyTorch 的编译工具把 CPU 端的调度开销砍掉，再用 CUDA Graph 把一堆小算子捏成一个大算子，整个扔给 GPU。形状固定下来之后，只在第一条轨迹时编译一次，后面全是直接复用，不再重新编译。

**第三层，模型优化。**

这是 DreamZero-Flash 版本，把噪声调度和去噪过程解耦，理论上一步就能出结果。

三层 buff 叠满之后，推理速度**勉强摸到 7Hz。**

听起来还行？但业内公认，10Hz 是落地的最低门槛。也就是说，英伟达用尽了优化手段，依然没有达标。

另外还有硬件，跑出这个 7Hz 的，是两套 GB200。每一套 GB200 板卡的价格大致是 6-7 万美元，还不算散热系统和机柜。

机器人本身还需要一套把 Token 输出转换成电机控制信号的底层运算平台。换句话说，用英伟达的 WAM，光是计算硬件的成本，就是 15 万美元。

英伟达自己在论文里也承认了，原话是：

通过模型和系统优化，DreamZero 能用 2 张 GB200 跑到 7Hz，但相比目前在消费级 GPU 上能跑到 20Hz 以上的 VLA 模型，DreamZero 由于参数量大、且视频模型的迭代去噪特性，依然计算成本高昂。

DreamZero 的参数量只有 140 亿，单张 GB200 的 FP8 算力高达 10000TOPS，显存带宽 8000GB/s。放在三年前，这是超算级别的配置。即便如此，还是没摸到 10Hz 这条线。

有人说，GB200 现在贵，但等上 6-7 年，价格降下来就好了。

这话听起来挺安慰人，但经不起推敲。

最典型的例子就是英伟达的常青树 A100——2020 年 5 月发布，开价 1 万美元；6 年过去，A100 的价格不仅没降，反而还略微涨了一点。

当然，光拿英伟达一家说事，世界模型的支持者们肯定不服气。

那是英伟达自己的实现方式有问题，换个团队、换个架构呢？

数据来源：华为论文《DO WORLD ACTION MODELS GENERALIZE BETTER THAN VLAS? A ROBUSTNESS STUDY》

后面提到的三个模型都是世界模型，运行速度只能用一个词形容：**惨不忍睹。**

LingBot-VA（RT）为了保性能，state 去噪 25 步、action 去噪 50 步，延迟高达 5230 毫秒，超过 5 秒。

为了能用，LingBot-VA（RW）砍到 3 步 state、5 步 action，延迟还是有 480 毫秒。

很遗憾，华为没说计算平台是什么，猜大概率是单张英伟达 RTX4090。

别小看这张 4090，它能轻松碾压机器人圈常用的端侧芯片 Jetson AGX Thor。换句话说，480 毫秒，已经是「拿桌面级显卡硬刚」的结果了。

图片来源：上海交通大学论文《Characterizing Vision-Language-Action Models across XPUs: Constraints and Acceleration for On-Robot Deployment》

上图分析了三个具身智能 VLA 模型在不同处理器上的延迟，其中 4090 是英伟达的 RTX 4090，B60 是英特尔的显卡（配套 CPU 是英特尔 11 代 i7-11700），310P 是华为的升腾 310P。

2023 年推出的 RTX4090 具备压倒性的绝对优势，**实际上 RTX4090 可以碾压目前 99% 的端侧推理用芯片。**

2026 年 5 月，微软发表论文《Offload or Overload: A Platform Measurement Study of Mobile Robotic Manipulation Workloads》，详细分析了移动机器人的操纵 workload。

微软在多个计算平台测试了两种具身智能模型的推理时间：

一种是典型的 VLA 模型 PI0.5，另一种是英伟达的世界模型 DreamZero。

三个测试平台：**Jetson AGX Thor T5000、常青树 A100，还有一个 4000 美元、号称「个人超算」的 DGX Spark。**

结果是：VLA 推理是毫秒级，世界模型是秒级。**这是两百倍的差距。**

DGX Spark 上推理时间长达 21.87 秒；

Jetson AGX Thor T5000 的算力是 DGX Spark 的两倍，但性能提升微乎其微；A100 表现相对最好，也要 6.22 秒。

如果微软没有针对 DreamZero 做优化，GB200 和 A100 的推理速度其实相差不大，GB200 上未经优化的推理时间是 6.2 秒，而 GB200 的算力是 A100 的 16 倍。

算力堆上去了，推理时间几乎没缩短。

上图来自清华大学论文《Fast-WAM: Do World Action Models Need Test-time Future Imagination?》。

在 IDM（即图中 a 和 b）模式下，延迟高达 810 毫秒，而 PI0.5 仅 180 毫秒，这里使用的计算平台是单张英伟达 RTX5090。

不过 Fast-WAM 只考虑单个 action chunk 的生成，且忽略了自回归 loop 的时间。但现实中不可能只有单个 action chunk，长序列动作会被拆分成多个 chunk。算上这部分，推理时间还是秒级的。

世界模型还有一个缺点：缺乏长时程推理。

DreamZero 架构虽然具备视觉记忆机制，但记忆跨度目前仅为短时程（约 6 秒）。

要实现稳健的长时程任务执行，至少要做到 20-30 秒。

目前有两条技术路径：

一是引入 System 2（慢系统）规划器，构建模块化双系统架构；

二是把 WAM 的上下文窗口大幅延长，借鉴视频生成模型里长时序一致性的相关技术。

两条路径都有潜力，值得并行探索。但不管走哪条，都会对计算系统造成更大压力，推理速度只会进一步下滑。

理论上，VLA 确实不如 WAM。

VLA 是典型的模拟学习，像条件反射：**系统并没有真正「学会」技能，只是把训练数据里出现过的模式记住了。**

WAM 走的是强化学习路线，理论上能从数据里提炼出物理规律，举一反三，学到的是真正的「技能」。

VLA 还有两个硬伤。

**第一，数据成本太高。**

除了谷歌、阿里这种量级的玩家，大多数公司根本养不起真机数据采集，市面上大多是在 PI0 这个经典 VLA 模型上做点强化学习增强，缝缝补补。

**第二，天花板已经看见了。**

机器人领域最常用的测试平台 LIBERO，前十名清一色 VLA 模型，成功率全部超过或接近 99%。再往上，已经没什么空间了。

这就是为什么，明知道算力账算不过来，全行业还是在往世界模型里砸钱。

Jim Fan 在英伟达坚持做 WAM，谷歌在做 Genie，DeepMind 在做 SIMA，Physical Intelligence 押注他们的 Pi 系列，特斯拉也没停。

原因很简单：VLA 这条路，已经看得到头了。世界模型这条路，至少理论上还望不到头。

世界模型在高精度 3D 空间任务上，比如插钥匙、穿针、取出某一张卡片，仍然是类似 VLA 的模仿学习。

当前的多样化预训练策略以任务广度为优先，可能导致高精度操作所需的密集演示数据覆盖不足。

世界模型要想再进一步，计算量只会继续大幅增加。高自由度机器人需要更多自由探索数据，才能学到精准的隐式逆动力学模型。

因为从未来视觉状态到电机控制指令的映射，会随运动学复杂度呈指数级增长。

到那个时候，就不是两张 GB200 能搞定的了，而是要一个 300 万美元的 NVL72 机柜。如何量化隐式逆动力学模型的精度，仍是行业待解的难题。

那有没有可能为世界模型设计一款专用芯片，来解决落地问题？

**这又是一个鸡生蛋、蛋生鸡的悖论。**

目前机器人真正量产落地的几乎没有，大多是 Demo 或科研性质，出货量很低，能过三位数的都非常罕见。如此低的量，还要做专用芯片，成本估计比 GB200 还高。

反过来，这么高的价格，又会进一步阻碍世界模型落地。

上图是扩散模型的 GPU 利用率分析。Batch Size 即批处理数量，世界模型的核心就是 DiT 架构，而机器人的应用场景里，Batch Size=1。

也就是说，GPU（也可以扩展到 NPU）的利用率只有 10-15%，效率很低。

简单来说，矩阵运算单元天生是「批量选手」，Batch=1 这种单兵作战的场景，它根本玩不转。

这里展开说一下：

在固定形状的小矩阵块（张量核心，GPU 和 NPU 里的 AI 运算单元）上，把成百上千个乘加并行铺在一片专用电路里，一条指令完成 **D = A·B + C**，其中 A、B、C、D 都是小矩阵（比如 16×16）。

相比标量单元逐个乘积累加，单位面积和功耗能做的乘加多出一个数量级。

但天下没有白来的算力密度，代价是这块电路只接受固定形状、固定数据布局的输入。软件想用上它，就不能再写朴素的标量三重循环：

必须把矩阵切成硬件规定的瓦片，按硬件要求的布局摆好数据再送入。

Batch=1 这种情况，张量单元没法摆好数据，只能退到无所不能的标量处理单元上。在英伟达 GPU 里，就是 CUDA 核心。

说到底，张量单元只能粗粒度大批量处理，没法细粒度单一处理。

要处理 Batch=1 这种情况，最简单的办法就是退回 CPU 时代：每核独立分支、循环、PC + 指令存储 + 本地 SRAM。

这不仅适配 Batch=1，还适配 Decode、MoE 专家路由、可变长 KV cache，也就是 Agentic AI 最需要的长上下文场景。

除了 Batch=1 之外，扩散采样算法的核心操作：词表扫描、归约、排序、掩码选取——有大量的内存碎片和对齐开销，这些延迟与采样步数成正比。

论文《Beyond GEMM-Centric NPUs: Enabling Efficient Diffusion LLM Sampling》指出，扩散大模型采样阶段的时延占比高达 71%，是推理的核心瓶颈。

VAE 阶段，采样步数越多通常准确度越高。Action 阶段，去噪步数可以大幅压缩，目前大部分从早期的四五十步压缩到五到十步，甚至一步直出。

但关键的 VAE 阶段，步数压缩太多会导致性能大幅下降。

针对这种工作量，要采用解耦的混合精度存储层级，分设向量、浮点、整数 SRAM，搭配专用归约和逐元素计算单元，针对性优化采样的非 GEMM 操作。还要通过专用解量化器，实现 HBM 与片上存储的高效数据流转，适配采样的内存访问特性。

Batch=1 和存储碎片化，让世界模型专用芯片的大部分面积都用来做 SRAM 存储、分支、循环、PC+ 指令存储，真正做运算的面积占比必然下降。

也就是说，AI 算力远低于同样成本的 NPU 和 GPU。这会让纸面数据很难看，难以打动那些只看矩阵算力数字的客户。同时 HBM 的使用，也让其成本很难压到 1 万美元以下。

如果上面这些判断成立，谁会受影响最大？

-   英伟达自己的机器人故事，节奏会被迫放慢。一边喊着 WAM 是未来，一边还得靠 GR00T 这样的 VLA 撑住现在的业务。
-   FigureAI 这类押注通用人形机器人的公司，商业化周期只能继续拉长。
-   Physical Intelligence 们用世界模型讲的估值故事，短期内不太好兑现。
-   国内一众机器人公司，该用 VLA 的，还是会继续用 VLA。

芯片公司也一样：短期内真正卖得出去的，还是 VLA 优化路线的芯片，不是世界模型专用芯片。

**唯一的例外，可能是自动驾驶。**

具身智能和自动驾驶领域内的世界模型，还略有不同。具身智能要考虑比较复杂的逆动力学，参数比较多，想要落地几乎不可能。

自动驾驶领域，早期的世界模型参数都很小，甚至有低于 1 亿的。近期世界模型大量使用视频生成模型做骨架，参数暴增，落地难度也在持续增加。

但相对具身智能，自动驾驶领域还有希望，尤其是车企可以自产自用，没有「鸡生蛋蛋生鸡」的悖论。

不过具身智能厂家要做世界模型专用芯片，必然面临巨额亏损。影响机器人落地的因素很多，不止世界模型，还有昂贵的电机、机械成本等等。

从现在能看到的论文和硬件数据看，世界模型距离机器人规模化落地，还有一段不短的距离。

未来几年，VLA 大概率仍是主流，并且已经摸到了部分场景的天花板。

世界模型更像是一个长期的研究方向，还在寻找通往现实世界的楼梯。

两者之间隔着的，不只是算法差距，更是**硬件成本、能耗、延迟和工程复杂度。**

至于这道题最后怎么解，留给时间去回答。

### 相关股票

- [NVDA.US](https://longbridge.com/zh-CN/quote/NVDA.US.md)
- [HUAWEI.NA](https://longbridge.com/zh-CN/quote/HUAWEI.NA.md)
- [NVDL.US](https://longbridge.com/zh-CN/quote/NVDL.US.md)
- [07788.HK](https://longbridge.com/zh-CN/quote/07788.HK.md)
- [07388.HK](https://longbridge.com/zh-CN/quote/07388.HK.md)
- [NVDY.US](https://longbridge.com/zh-CN/quote/NVDY.US.md)
- [NVDD.US](https://longbridge.com/zh-CN/quote/NVDD.US.md)
- [NVDX.US](https://longbridge.com/zh-CN/quote/NVDX.US.md)
- [NVDQ.US](https://longbridge.com/zh-CN/quote/NVDQ.US.md)