VLA 没死，世界模型才刚开始交学费

机器人圈这两年换庄换得挺快。

2024 年，大家围着 VLA 转。

2025 年，话题变成了强化学习。

到了 2026 年，世界模型成了新顶流。

2026 年 5 月，英伟达机器人负责人 Jim Fan 在红杉 AI Ascent 大会上连开两场「葬礼」：第一场送别 VLA，第二场送别遥操作。

一时间行业风声鹤唳，仿佛搞了多年 VLA 的人都押错了方向。

然而就在宣布 VLA 已死的同时，英伟达转头就先把自己的 VLA 大模型 GR00T 升级到 1.7 版本，然后又大张旗鼓地推出 VLA 大模型 EgoScale。

这只能说明 VLA 不会死，世界模型致命死穴是运算速度太慢，计算资源太贵，至少 6 到 7 年内难以落地。

那世界模型到底是不是机器人的下一站？

今天没人能拍胸口给出答案。

但有一件事基本可以确定：从论文到机器人，这条路，比 PPT 里画的远得多。

先看一个最有说服力的案例。

我们以英伟达 2026 年 2 月发表的世界模型 DreamZero 为例。英伟达为了减少推理时间，不惜降低任务成功率，把去噪步数压到 1，然后从系统、实现、模型三个层面做了全方位优化。

数据来源：英伟达《World Action Models are Zero-shot Policies》论文

第一层，系统优化。

CFG 并行，把扩散模型里必须分开算的「条件分支」和「无条件分支」，拆给两块 GPU 同时跑，省掉一半的等待时间。

DiT 缓存更直接：如果连续两步的运动方向足够接近，就直接复用上一步算好的结果，硬是把 16 步去噪压到 4 步，精度几乎不掉。

第二层，编译优化。

用 PyTorch 的编译工具把 CPU 端的调度开销砍掉，再用 CUDA Graph 把一堆小算子捏成一个大算子，整个扔给 GPU。形状固定下来之后，只在第一条轨迹时编译一次，后面全是直接复用，不再重新编译。

第三层，模型优化。

这是 DreamZero-Flash 版本，把噪声调度和去噪过程解耦，理论上一步就能出结果。

三层 buff 叠满之后，推理速度勉强摸到 7Hz。

听起来还行？但业内公认，10Hz 是落地的最低门槛。也就是说，英伟达用尽了优化手段，依然没有达标。

另外还有硬件，跑出这个 7Hz 的，是两套 GB200。每一套 GB200 板卡的价格大致是 6-7 万美元，还不算散热系统和机柜。

机器人本身还需要一套把 Token 输出转换成电机控制信号的底层运算平台。换句话说，用英伟达的 WAM，光是计算硬件的成本，就是 15 万美元。

英伟达自己在论文里也承认了，原话是：

通过模型和系统优化，DreamZero 能用 2 张 GB200 跑到 7Hz，但相比目前在消费级 GPU 上能跑到 20Hz 以上的 VLA 模型，DreamZero 由于参数量大、且视频模型的迭代去噪特性，依然计算成本高昂。

DreamZero 的参数量只有 140 亿，单张 GB200 的 FP8 算力高达 10000TOPS，显存带宽 8000GB/s。放在三年前，这是超算级别的配置。即便如此，还是没摸到 10Hz 这条线。

有人说，GB200 现在贵，但等上 6-7 年，价格降下来就好了。

这话听起来挺安慰人，但经不起推敲。

最典型的例子就是英伟达的常青树 A100——2020 年 5 月发布，开价 1 万美元；6 年过去，A100 的价格不仅没降，反而还略微涨了一点。

当然，光拿英伟达一家说事，世界模型的支持者们肯定不服气。

那是英伟达自己的实现方式有问题，换个团队、换个架构呢？

数据来源：华为论文《DO WORLD ACTION MODELS GENERALIZE BETTER THAN VLAS? A ROBUSTNESS STUDY》

后面提到的三个模型都是世界模型，运行速度只能用一个词形容：惨不忍睹。

LingBot-VA（RT）为了保性能，state 去噪 25 步、action 去噪 50 步，延迟高达 5230 毫秒，超过 5 秒。

为了能用，LingBot-VA（RW）砍到 3 步 state、5 步 action，延迟还是有 480 毫秒。

很遗憾，华为没说计算平台是什么，猜大概率是单张英伟达 RTX4090。

别小看这张 4090，它能轻松碾压机器人圈常用的端侧芯片 Jetson AGX Thor。换句话说，480 毫秒，已经是「拿桌面级显卡硬刚」的结果了。

图片来源：上海交通大学论文《Characterizing Vision-Language-Action Models across XPUs: Constraints and Acceleration for On-Robot Deployment》

上图分析了三个具身智能 VLA 模型在不同处理器上的延迟，其中 4090 是英伟达的 RTX 4090，B60 是英特尔的显卡（配套 CPU 是英特尔 11 代 i7-11700），310P 是华为的升腾 310P。

2023 年推出的 RTX4090 具备压倒性的绝对优势，实际上 RTX4090 可以碾压目前 99% 的端侧推理用芯片。

2026 年 5 月，微软发表论文《Offload or Overload: A Platform Measurement Study of Mobile Robotic Manipulation Workloads》，详细分析了移动机器人的操纵 workload。

微软在多个计算平台测试了两种具身智能模型的推理时间：

一种是典型的 VLA 模型 PI0.5，另一种是英伟达的世界模型 DreamZero。

三个测试平台：Jetson AGX Thor T5000、常青树 A100，还有一个 4000 美元、号称「个人超算」的 DGX Spark。

结果是：VLA 推理是毫秒级，世界模型是秒级。这是两百倍的差距。

DGX Spark 上推理时间长达 21.87 秒；

Jetson AGX Thor T5000 的算力是 DGX Spark 的两倍，但性能提升微乎其微；A100 表现相对最好，也要 6.22 秒。

如果微软没有针对 DreamZero 做优化，GB200 和 A100 的推理速度其实相差不大，GB200 上未经优化的推理时间是 6.2 秒，而 GB200 的算力是 A100 的 16 倍。

算力堆上去了，推理时间几乎没缩短。

上图来自清华大学论文《Fast-WAM: Do World Action Models Need Test-time Future Imagination?》。

在 IDM（即图中 a 和 b）模式下，延迟高达 810 毫秒，而 PI0.5 仅 180 毫秒，这里使用的计算平台是单张英伟达 RTX5090。

不过 Fast-WAM 只考虑单个 action chunk 的生成，且忽略了自回归 loop 的时间。但现实中不可能只有单个 action chunk，长序列动作会被拆分成多个 chunk。算上这部分，推理时间还是秒级的。

世界模型还有一个缺点：缺乏长时程推理。

DreamZero 架构虽然具备视觉记忆机制，但记忆跨度目前仅为短时程（约 6 秒）。

要实现稳健的长时程任务执行，至少要做到 20-30 秒。

目前有两条技术路径：

一是引入 System 2（慢系统）规划器，构建模块化双系统架构；

二是把 WAM 的上下文窗口大幅延长，借鉴视频生成模型里长时序一致性的相关技术。

两条路径都有潜力，值得并行探索。但不管走哪条，都会对计算系统造成更大压力，推理速度只会进一步下滑。

理论上，VLA 确实不如 WAM。

VLA 是典型的模拟学习，像条件反射：系统并没有真正「学会」技能，只是把训练数据里出现过的模式记住了。

WAM 走的是强化学习路线，理论上能从数据里提炼出物理规律，举一反三，学到的是真正的「技能」。

VLA 还有两个硬伤。

第一，数据成本太高。

除了谷歌、阿里这种量级的玩家，大多数公司根本养不起真机数据采集，市面上大多是在 PI0 这个经典 VLA 模型上做点强化学习增强，缝缝补补。

第二，天花板已经看见了。

机器人领域最常用的测试平台 LIBERO，前十名清一色 VLA 模型，成功率全部超过或接近 99%。再往上，已经没什么空间了。

这就是为什么，明知道算力账算不过来，全行业还是在往世界模型里砸钱。

Jim Fan 在英伟达坚持做 WAM，谷歌在做 Genie，DeepMind 在做 SIMA，Physical Intelligence 押注他们的 Pi 系列，特斯拉也没停。

原因很简单：VLA 这条路，已经看得到头了。世界模型这条路，至少理论上还望不到头。

世界模型在高精度 3D 空间任务上，比如插钥匙、穿针、取出某一张卡片，仍然是类似 VLA 的模仿学习。

当前的多样化预训练策略以任务广度为优先，可能导致高精度操作所需的密集演示数据覆盖不足。

世界模型要想再进一步，计算量只会继续大幅增加。高自由度机器人需要更多自由探索数据，才能学到精准的隐式逆动力学模型。

因为从未来视觉状态到电机控制指令的映射，会随运动学复杂度呈指数级增长。

到那个时候，就不是两张 GB200 能搞定的了，而是要一个 300 万美元的 NVL72 机柜。如何量化隐式逆动力学模型的精度，仍是行业待解的难题。

那有没有可能为世界模型设计一款专用芯片，来解决落地问题？

这又是一个鸡生蛋、蛋生鸡的悖论。

目前机器人真正量产落地的几乎没有，大多是 Demo 或科研性质，出货量很低，能过三位数的都非常罕见。如此低的量，还要做专用芯片，成本估计比 GB200 还高。

反过来，这么高的价格，又会进一步阻碍世界模型落地。

上图是扩散模型的 GPU 利用率分析。Batch Size 即批处理数量，世界模型的核心就是 DiT 架构，而机器人的应用场景里，Batch Size=1。

也就是说，GPU（也可以扩展到 NPU）的利用率只有 10-15%，效率很低。

简单来说，矩阵运算单元天生是「批量选手」，Batch=1 这种单兵作战的场景，它根本玩不转。

这里展开说一下：

在固定形状的小矩阵块（张量核心，GPU 和 NPU 里的 AI 运算单元）上，把成百上千个乘加并行铺在一片专用电路里，一条指令完成 D = A·B + C，其中 A、B、C、D 都是小矩阵（比如 16×16）。

相比标量单元逐个乘积累加，单位面积和功耗能做的乘加多出一个数量级。

但天下没有白来的算力密度，代价是这块电路只接受固定形状、固定数据布局的输入。软件想用上它，就不能再写朴素的标量三重循环：

必须把矩阵切成硬件规定的瓦片，按硬件要求的布局摆好数据再送入。

Batch=1 这种情况，张量单元没法摆好数据，只能退到无所不能的标量处理单元上。在英伟达 GPU 里，就是 CUDA 核心。

说到底，张量单元只能粗粒度大批量处理，没法细粒度单一处理。

要处理 Batch=1 这种情况，最简单的办法就是退回 CPU 时代：每核独立分支、循环、PC + 指令存储 + 本地 SRAM。

这不仅适配 Batch=1，还适配 Decode、MoE 专家路由、可变长 KV cache，也就是 Agentic AI 最需要的长上下文场景。

除了 Batch=1 之外，扩散采样算法的核心操作：词表扫描、归约、排序、掩码选取——有大量的内存碎片和对齐开销，这些延迟与采样步数成正比。

论文《Beyond GEMM-Centric NPUs: Enabling Efficient Diffusion LLM Sampling》指出，扩散大模型采样阶段的时延占比高达 71%，是推理的核心瓶颈。

VAE 阶段，采样步数越多通常准确度越高。Action 阶段，去噪步数可以大幅压缩，目前大部分从早期的四五十步压缩到五到十步，甚至一步直出。

但关键的 VAE 阶段，步数压缩太多会导致性能大幅下降。

针对这种工作量，要采用解耦的混合精度存储层级，分设向量、浮点、整数 SRAM，搭配专用归约和逐元素计算单元，针对性优化采样的非 GEMM 操作。还要通过专用解量化器，实现 HBM 与片上存储的高效数据流转，适配采样的内存访问特性。

Batch=1 和存储碎片化，让世界模型专用芯片的大部分面积都用来做 SRAM 存储、分支、循环、PC+ 指令存储，真正做运算的面积占比必然下降。

也就是说，AI 算力远低于同样成本的 NPU 和 GPU。这会让纸面数据很难看，难以打动那些只看矩阵算力数字的客户。同时 HBM 的使用，也让其成本很难压到 1 万美元以下。

如果上面这些判断成立，谁会受影响最大？

英伟达自己的机器人故事，节奏会被迫放慢。一边喊着 WAM 是未来，一边还得靠 GR00T 这样的 VLA 撑住现在的业务。
FigureAI 这类押注通用人形机器人的公司，商业化周期只能继续拉长。
Physical Intelligence 们用世界模型讲的估值故事，短期内不太好兑现。
国内一众机器人公司，该用 VLA 的，还是会继续用 VLA。

芯片公司也一样：短期内真正卖得出去的，还是 VLA 优化路线的芯片，不是世界模型专用芯片。

唯一的例外，可能是自动驾驶。

具身智能和自动驾驶领域内的世界模型，还略有不同。具身智能要考虑比较复杂的逆动力学，参数比较多，想要落地几乎不可能。

自动驾驶领域，早期的世界模型参数都很小，甚至有低于 1 亿的。近期世界模型大量使用视频生成模型做骨架，参数暴增，落地难度也在持续增加。

但相对具身智能，自动驾驶领域还有希望，尤其是车企可以自产自用，没有「鸡生蛋蛋生鸡」的悖论。

不过具身智能厂家要做世界模型专用芯片，必然面临巨额亏损。影响机器人落地的因素很多，不止世界模型，还有昂贵的电机、机械成本等等。

从现在能看到的论文和硬件数据看，世界模型距离机器人规模化落地，还有一段不短的距离。

未来几年，VLA 大概率仍是主流，并且已经摸到了部分场景的天花板。

世界模型更像是一个长期的研究方向，还在寻找通往现实世界的楼梯。

两者之间隔着的，不只是算法差距，更是硬件成本、能耗、延迟和工程复杂度。

至于这道题最后怎么解，留给时间去回答。