二阶变量
2026.06.29 07:34

VLA 没死,世界模型才刚开始交学费

portai
我是 LongbridgeAI,我可以总结文章信息。

机器人圈这两年换庄换得挺快。

2024 年,大家围着 VLA 转。

2025 年,话题变成了强化学习。

到了 2026 年,世界模型成了新顶流。

2026 年 5 月,英伟达机器人负责人 Jim Fan 在红杉 AI Ascent 大会上连开两场「葬礼」:第一场送别 VLA,第二场送别遥操作。

一时间行业风声鹤唳,仿佛搞了多年 VLA 的人都押错了方向。

然而就在宣布 VLA 已死的同时,英伟达转头就先把自己的 VLA 大模型 GR00T 升级到 1.7 版本,然后又大张旗鼓地推出 VLA 大模型 EgoScale。

这只能说明 VLA 不会死,世界模型致命死穴是运算速度太慢,计算资源太贵,至少 6 到 7 年内难以落地。

那世界模型到底是不是机器人的下一站?

今天没人能拍胸口给出答案。

但有一件事基本可以确定:从论文到机器人,这条路,比 PPT 里画的远得多。

先看一个最有说服力的案例。

我们以英伟达 2026 年 2 月发表的世界模型 DreamZero 为例。英伟达为了减少推理时间,不惜降低任务成功率,把去噪步数压到 1,然后从系统、实现、模型三个层面做了全方位优化。

数据来源:英伟达《World Action Models are Zero-shot Policies》论文

第一层,系统优化。

CFG 并行,把扩散模型里必须分开算的「条件分支」和「无条件分支」,拆给两块 GPU 同时跑,省掉一半的等待时间。

DiT 缓存更直接:如果连续两步的运动方向足够接近,就直接复用上一步算好的结果,硬是把 16 步去噪压到 4 步,精度几乎不掉。

第二层,编译优化。

用 PyTorch 的编译工具把 CPU 端的调度开销砍掉,再用 CUDA Graph 把一堆小算子捏成一个大算子,整个扔给 GPU。形状固定下来之后,只在第一条轨迹时编译一次,后面全是直接复用,不再重新编译。

第三层,模型优化。

这是 DreamZero-Flash 版本,把噪声调度和去噪过程解耦,理论上一步就能出结果。

三层 buff 叠满之后,推理速度勉强摸到 7Hz。

听起来还行?但业内公认,10Hz 是落地的最低门槛。也就是说,英伟达用尽了优化手段,依然没有达标。

另外还有硬件,跑出这个 7Hz 的,是两套 GB200。每一套 GB200 板卡的价格大致是 6-7 万美元,还不算散热系统和机柜。

机器人本身还需要一套把 Token 输出转换成电机控制信号的底层运算平台。换句话说,用英伟达的 WAM,光是计算硬件的成本,就是 15 万美元。

英伟达自己在论文里也承认了,原话是:

通过模型和系统优化,DreamZero 能用 2 张 GB200 跑到 7Hz,但相比目前在消费级 GPU 上能跑到 20Hz 以上的 VLA 模型,DreamZero 由于参数量大、且视频模型的迭代去噪特性,依然计算成本高昂。

DreamZero 的参数量只有 140 亿,单张 GB200 的 FP8 算力高达 10000TOPS,显存带宽 8000GB/s。放在三年前,这是超算级别的配置。即便如此,还是没摸到 10Hz 这条线。

有人说,GB200 现在贵,但等上 6-7 年,价格降下来就好了。

这话听起来挺安慰人,但经不起推敲。

最典型的例子就是英伟达的常青树 A100——2020 年 5 月发布,开价 1 万美元;6 年过去,A100 的价格不仅没降,反而还略微涨了一点。

当然,光拿英伟达一家说事,世界模型的支持者们肯定不服气。

那是英伟达自己的实现方式有问题,换个团队、换个架构呢?

数据来源:华为论文《DO WORLD ACTION MODELS GENERALIZE BETTER THAN VLAS? A ROBUSTNESS STUDY》

后面提到的三个模型都是世界模型,运行速度只能用一个词形容:惨不忍睹。

LingBot-VA(RT)为了保性能,state 去噪 25 步、action 去噪 50 步,延迟高达 5230 毫秒,超过 5 秒。

为了能用,LingBot-VA(RW)砍到 3 步 state、5 步 action,延迟还是有 480 毫秒。

很遗憾,华为没说计算平台是什么,猜大概率是单张英伟达 RTX4090。

别小看这张 4090,它能轻松碾压机器人圈常用的端侧芯片 Jetson AGX Thor。换句话说,480 毫秒,已经是「拿桌面级显卡硬刚」的结果了。

图片来源:上海交通大学论文《Characterizing Vision-Language-Action Models across XPUs: Constraints and Acceleration for On-Robot Deployment》

上图分析了三个具身智能 VLA 模型在不同处理器上的延迟,其中 4090 是英伟达的 RTX 4090,B60 是英特尔的显卡(配套 CPU 是英特尔 11 代 i7-11700),310P 是华为的升腾 310P。

2023 年推出的 RTX4090 具备压倒性的绝对优势,实际上 RTX4090 可以碾压目前 99% 的端侧推理用芯片。

2026 年 5 月,微软发表论文《Offload or Overload: A Platform Measurement Study of Mobile Robotic Manipulation Workloads》,详细分析了移动机器人的操纵 workload。

微软在多个计算平台测试了两种具身智能模型的推理时间:

一种是典型的 VLA 模型 PI0.5,另一种是英伟达的世界模型 DreamZero。

三个测试平台:Jetson AGX Thor T5000、常青树 A100,还有一个 4000 美元、号称「个人超算」的 DGX Spark。

结果是:VLA 推理是毫秒级,世界模型是秒级。这是两百倍的差距。

DGX Spark 上推理时间长达 21.87 秒;

Jetson AGX Thor T5000 的算力是 DGX Spark 的两倍,但性能提升微乎其微;A100 表现相对最好,也要 6.22 秒。

如果微软没有针对 DreamZero 做优化,GB200 和 A100 的推理速度其实相差不大,GB200 上未经优化的推理时间是 6.2 秒,而 GB200 的算力是 A100 的 16 倍。

算力堆上去了,推理时间几乎没缩短。

上图来自清华大学论文《Fast-WAM: Do World Action Models Need Test-time Future Imagination?》。

在 IDM(即图中 a 和 b)模式下,延迟高达 810 毫秒,而 PI0.5 仅 180 毫秒,这里使用的计算平台是单张英伟达 RTX5090。

不过 Fast-WAM 只考虑单个 action chunk 的生成,且忽略了自回归 loop 的时间。但现实中不可能只有单个 action chunk,长序列动作会被拆分成多个 chunk。算上这部分,推理时间还是秒级的。

世界模型还有一个缺点:缺乏长时程推理。

DreamZero 架构虽然具备视觉记忆机制,但记忆跨度目前仅为短时程(约 6 秒)。

要实现稳健的长时程任务执行,至少要做到 20-30 秒。

目前有两条技术路径:

一是引入 System 2(慢系统)规划器,构建模块化双系统架构;

二是把 WAM 的上下文窗口大幅延长,借鉴视频生成模型里长时序一致性的相关技术。

两条路径都有潜力,值得并行探索。但不管走哪条,都会对计算系统造成更大压力,推理速度只会进一步下滑。

理论上,VLA 确实不如 WAM。

VLA 是典型的模拟学习,像条件反射:系统并没有真正「学会」技能,只是把训练数据里出现过的模式记住了。

WAM 走的是强化学习路线,理论上能从数据里提炼出物理规律,举一反三,学到的是真正的「技能」。

VLA 还有两个硬伤。

第一,数据成本太高。

除了谷歌、阿里这种量级的玩家,大多数公司根本养不起真机数据采集,市面上大多是在 PI0 这个经典 VLA 模型上做点强化学习增强,缝缝补补。

第二,天花板已经看见了。

机器人领域最常用的测试平台 LIBERO,前十名清一色 VLA 模型,成功率全部超过或接近 99%。再往上,已经没什么空间了。

这就是为什么,明知道算力账算不过来,全行业还是在往世界模型里砸钱。

Jim Fan 在英伟达坚持做 WAM,谷歌在做 Genie,DeepMind 在做 SIMA,Physical Intelligence 押注他们的 Pi 系列,特斯拉也没停。

原因很简单:VLA 这条路,已经看得到头了。世界模型这条路,至少理论上还望不到头。

世界模型在高精度 3D 空间任务上,比如插钥匙、穿针、取出某一张卡片,仍然是类似 VLA 的模仿学习。

当前的多样化预训练策略以任务广度为优先,可能导致高精度操作所需的密集演示数据覆盖不足。

世界模型要想再进一步,计算量只会继续大幅增加。高自由度机器人需要更多自由探索数据,才能学到精准的隐式逆动力学模型。

因为从未来视觉状态到电机控制指令的映射,会随运动学复杂度呈指数级增长。

到那个时候,就不是两张 GB200 能搞定的了,而是要一个 300 万美元的 NVL72 机柜。如何量化隐式逆动力学模型的精度,仍是行业待解的难题。

那有没有可能为世界模型设计一款专用芯片,来解决落地问题?

这又是一个鸡生蛋、蛋生鸡的悖论。

目前机器人真正量产落地的几乎没有,大多是 Demo 或科研性质,出货量很低,能过三位数的都非常罕见。如此低的量,还要做专用芯片,成本估计比 GB200 还高。

反过来,这么高的价格,又会进一步阻碍世界模型落地。

上图是扩散模型的 GPU 利用率分析。Batch Size 即批处理数量,世界模型的核心就是 DiT 架构,而机器人的应用场景里,Batch Size=1。

也就是说,GPU(也可以扩展到 NPU)的利用率只有 10-15%,效率很低。

简单来说,矩阵运算单元天生是「批量选手」,Batch=1 这种单兵作战的场景,它根本玩不转。

这里展开说一下:

在固定形状的小矩阵块(张量核心,GPU 和 NPU 里的 AI 运算单元)上,把成百上千个乘加并行铺在一片专用电路里,一条指令完成 D = A·B + C,其中 A、B、C、D 都是小矩阵(比如 16×16)。

相比标量单元逐个乘积累加,单位面积和功耗能做的乘加多出一个数量级。

但天下没有白来的算力密度,代价是这块电路只接受固定形状、固定数据布局的输入。软件想用上它,就不能再写朴素的标量三重循环:

必须把矩阵切成硬件规定的瓦片,按硬件要求的布局摆好数据再送入。

Batch=1 这种情况,张量单元没法摆好数据,只能退到无所不能的标量处理单元上。在英伟达 GPU 里,就是 CUDA 核心。

说到底,张量单元只能粗粒度大批量处理,没法细粒度单一处理。

要处理 Batch=1 这种情况,最简单的办法就是退回 CPU 时代:每核独立分支、循环、PC + 指令存储 + 本地 SRAM。

这不仅适配 Batch=1,还适配 Decode、MoE 专家路由、可变长 KV cache,也就是 Agentic AI 最需要的长上下文场景。

除了 Batch=1 之外,扩散采样算法的核心操作:词表扫描、归约、排序、掩码选取——有大量的内存碎片和对齐开销,这些延迟与采样步数成正比。

论文《Beyond GEMM-Centric NPUs: Enabling Efficient Diffusion LLM Sampling》指出,扩散大模型采样阶段的时延占比高达 71%,是推理的核心瓶颈。

VAE 阶段,采样步数越多通常准确度越高。Action 阶段,去噪步数可以大幅压缩,目前大部分从早期的四五十步压缩到五到十步,甚至一步直出。

但关键的 VAE 阶段,步数压缩太多会导致性能大幅下降。

针对这种工作量,要采用解耦的混合精度存储层级,分设向量、浮点、整数 SRAM,搭配专用归约和逐元素计算单元,针对性优化采样的非 GEMM 操作。还要通过专用解量化器,实现 HBM 与片上存储的高效数据流转,适配采样的内存访问特性。

Batch=1 和存储碎片化,让世界模型专用芯片的大部分面积都用来做 SRAM 存储、分支、循环、PC+ 指令存储,真正做运算的面积占比必然下降。

也就是说,AI 算力远低于同样成本的 NPU 和 GPU。这会让纸面数据很难看,难以打动那些只看矩阵算力数字的客户。同时 HBM 的使用,也让其成本很难压到 1 万美元以下。

如果上面这些判断成立,谁会受影响最大?

  • 英伟达自己的机器人故事,节奏会被迫放慢。一边喊着 WAM 是未来,一边还得靠 GR00T 这样的 VLA 撑住现在的业务。
  • FigureAI 这类押注通用人形机器人的公司,商业化周期只能继续拉长。
  • Physical Intelligence 们用世界模型讲的估值故事,短期内不太好兑现。
  • 国内一众机器人公司,该用 VLA 的,还是会继续用 VLA。

芯片公司也一样:短期内真正卖得出去的,还是 VLA 优化路线的芯片,不是世界模型专用芯片。

唯一的例外,可能是自动驾驶。

具身智能和自动驾驶领域内的世界模型,还略有不同。具身智能要考虑比较复杂的逆动力学,参数比较多,想要落地几乎不可能。

自动驾驶领域,早期的世界模型参数都很小,甚至有低于 1 亿的。近期世界模型大量使用视频生成模型做骨架,参数暴增,落地难度也在持续增加。

但相对具身智能,自动驾驶领域还有希望,尤其是车企可以自产自用,没有「鸡生蛋蛋生鸡」的悖论。

不过具身智能厂家要做世界模型专用芯片,必然面临巨额亏损。影响机器人落地的因素很多,不止世界模型,还有昂贵的电机、机械成本等等。

从现在能看到的论文和硬件数据看,世界模型距离机器人规模化落地,还有一段不短的距离。

未来几年,VLA 大概率仍是主流,并且已经摸到了部分场景的天花板。

世界模型更像是一个长期的研究方向,还在寻找通往现实世界的楼梯。

两者之间隔着的,不只是算法差距,更是硬件成本、能耗、延迟和工程复杂度。

至于这道题最后怎么解,留给时间去回答。

本文版权归属原作者/机构所有。

当前内容仅代表作者观点,与本平台立场无关。内容仅供投资者参考,亦不构成任何投资建议。如对本平台提供的内容服务有任何疑问或建议,请联系我们。