--- title: "VLA 没死,世界模型才刚开始交学费" type: "Topics" locale: "zh-CN" url: "https://longbridge.com/zh-CN/topics/42273838.md" description: "机器人圈这两年换庄换得挺快。2024 年,大家围着 VLA 转。2025 年,话题变成了强化学习。到了 2026 年,世界模型成了新顶流。2026 年 5 月,英伟达机器人负责人 Jim Fan 在红杉 AI Ascent 大会上连开两场「葬礼」:第一场送别 VLA,第二场送别遥操作。一时间行业风声鹤唳,仿佛搞了多年 VLA 的人都押错了方向。然而就在宣布 VLA 已死的同时..." datetime: "2026-06-29T07:34:23.000Z" locales: - [en](https://longbridge.com/en/topics/42273838.md) - [zh-CN](https://longbridge.com/zh-CN/topics/42273838.md) - [zh-HK](https://longbridge.com/zh-HK/topics/42273838.md) author: "[二阶变量](https://longbridge.com/zh-CN/profiles/26519161.md)" --- # VLA 没死,世界模型才刚开始交学费 机器人圈这两年换庄换得挺快。 2024 年,大家围着 VLA 转。 2025 年,话题变成了强化学习。 到了 2026 年,**世界模型成了新顶流。** 2026 年 5 月,英伟达机器人负责人 Jim Fan 在红杉 AI Ascent 大会上连开两场「葬礼」:**第一场送别 VLA,第二场送别遥操作。** 一时间行业风声鹤唳,仿佛搞了多年 VLA 的人都押错了方向。 然而就在宣布 VLA 已死的同时,英伟达转头就先把自己的 VLA 大模型 GR00T 升级到 1.7 版本,然后又大张旗鼓地推出 VLA 大模型 EgoScale。 这只能说明 VLA 不会死,世界模型致命死穴是运算速度太慢,计算资源太贵,至少 6 到 7 年内难以落地。 那世界模型到底是不是机器人的下一站? 今天没人能拍胸口给出答案。 但有一件事基本可以确定:**从论文到机器人,这条路,比 PPT 里画的远得多。** 先看一个最有说服力的案例。 我们以英伟达 2026 年 2 月发表的世界模型 DreamZero 为例。英伟达为了减少推理时间,不惜降低任务成功率,把去噪步数压到 1,然后从系统、实现、模型三个层面做了全方位优化。 数据来源:英伟达《World Action Models are Zero-shot Policies》论文 **第一层,系统优化。** CFG 并行,把扩散模型里必须分开算的「条件分支」和「无条件分支」,拆给两块 GPU 同时跑,省掉一半的等待时间。 DiT 缓存更直接:如果连续两步的运动方向足够接近,就直接复用上一步算好的结果,硬是把 16 步去噪压到 4 步,精度几乎不掉。 **第二层,编译优化。** 用 PyTorch 的编译工具把 CPU 端的调度开销砍掉,再用 CUDA Graph 把一堆小算子捏成一个大算子,整个扔给 GPU。形状固定下来之后,只在第一条轨迹时编译一次,后面全是直接复用,不再重新编译。 **第三层,模型优化。** 这是 DreamZero-Flash 版本,把噪声调度和去噪过程解耦,理论上一步就能出结果。 三层 buff 叠满之后,推理速度**勉强摸到 7Hz。** 听起来还行?但业内公认,10Hz 是落地的最低门槛。也就是说,英伟达用尽了优化手段,依然没有达标。 另外还有硬件,跑出这个 7Hz 的,是两套 GB200。每一套 GB200 板卡的价格大致是 6-7 万美元,还不算散热系统和机柜。 机器人本身还需要一套把 Token 输出转换成电机控制信号的底层运算平台。换句话说,用英伟达的 WAM,光是计算硬件的成本,就是 15 万美元。 英伟达自己在论文里也承认了,原话是: 通过模型和系统优化,DreamZero 能用 2 张 GB200 跑到 7Hz,但相比目前在消费级 GPU 上能跑到 20Hz 以上的 VLA 模型,DreamZero 由于参数量大、且视频模型的迭代去噪特性,依然计算成本高昂。 DreamZero 的参数量只有 140 亿,单张 GB200 的 FP8 算力高达 10000TOPS,显存带宽 8000GB/s。放在三年前,这是超算级别的配置。即便如此,还是没摸到 10Hz 这条线。 有人说,GB200 现在贵,但等上 6-7 年,价格降下来就好了。 这话听起来挺安慰人,但经不起推敲。 最典型的例子就是英伟达的常青树 A100——2020 年 5 月发布,开价 1 万美元;6 年过去,A100 的价格不仅没降,反而还略微涨了一点。 当然,光拿英伟达一家说事,世界模型的支持者们肯定不服气。 那是英伟达自己的实现方式有问题,换个团队、换个架构呢? 数据来源:华为论文《DO WORLD ACTION MODELS GENERALIZE BETTER THAN VLAS? A ROBUSTNESS STUDY》 后面提到的三个模型都是世界模型,运行速度只能用一个词形容:**惨不忍睹。** LingBot-VA(RT)为了保性能,state 去噪 25 步、action 去噪 50 步,延迟高达 5230 毫秒,超过 5 秒。 为了能用,LingBot-VA(RW)砍到 3 步 state、5 步 action,延迟还是有 480 毫秒。 很遗憾,华为没说计算平台是什么,猜大概率是单张英伟达 RTX4090。 别小看这张 4090,它能轻松碾压机器人圈常用的端侧芯片 Jetson AGX Thor。换句话说,480 毫秒,已经是「拿桌面级显卡硬刚」的结果了。 图片来源:上海交通大学论文《Characterizing Vision-Language-Action Models across XPUs: Constraints and Acceleration for On-Robot Deployment》 上图分析了三个具身智能 VLA 模型在不同处理器上的延迟,其中 4090 是英伟达的 RTX 4090,B60 是英特尔的显卡(配套 CPU 是英特尔 11 代 i7-11700),310P 是华为的升腾 310P。 2023 年推出的 RTX4090 具备压倒性的绝对优势,**实际上 RTX4090 可以碾压目前 99% 的端侧推理用芯片。** 2026 年 5 月,微软发表论文《Offload or Overload: A Platform Measurement Study of Mobile Robotic Manipulation Workloads》,详细分析了移动机器人的操纵 workload。 微软在多个计算平台测试了两种具身智能模型的推理时间: 一种是典型的 VLA 模型 PI0.5,另一种是英伟达的世界模型 DreamZero。 三个测试平台:**Jetson AGX Thor T5000、常青树 A100,还有一个 4000 美元、号称「个人超算」的 DGX Spark。** 结果是:VLA 推理是毫秒级,世界模型是秒级。**这是两百倍的差距。** DGX Spark 上推理时间长达 21.87 秒; Jetson AGX Thor T5000 的算力是 DGX Spark 的两倍,但性能提升微乎其微;A100 表现相对最好,也要 6.22 秒。 如果微软没有针对 DreamZero 做优化,GB200 和 A100 的推理速度其实相差不大,GB200 上未经优化的推理时间是 6.2 秒,而 GB200 的算力是 A100 的 16 倍。 算力堆上去了,推理时间几乎没缩短。 上图来自清华大学论文《Fast-WAM: Do World Action Models Need Test-time Future Imagination?》。 在 IDM(即图中 a 和 b)模式下,延迟高达 810 毫秒,而 PI0.5 仅 180 毫秒,这里使用的计算平台是单张英伟达 RTX5090。 不过 Fast-WAM 只考虑单个 action chunk 的生成,且忽略了自回归 loop 的时间。但现实中不可能只有单个 action chunk,长序列动作会被拆分成多个 chunk。算上这部分,推理时间还是秒级的。 世界模型还有一个缺点:缺乏长时程推理。 DreamZero 架构虽然具备视觉记忆机制,但记忆跨度目前仅为短时程(约 6 秒)。 要实现稳健的长时程任务执行,至少要做到 20-30 秒。 目前有两条技术路径: 一是引入 System 2(慢系统)规划器,构建模块化双系统架构; 二是把 WAM 的上下文窗口大幅延长,借鉴视频生成模型里长时序一致性的相关技术。 两条路径都有潜力,值得并行探索。但不管走哪条,都会对计算系统造成更大压力,推理速度只会进一步下滑。 理论上,VLA 确实不如 WAM。 VLA 是典型的模拟学习,像条件反射:**系统并没有真正「学会」技能,只是把训练数据里出现过的模式记住了。** WAM 走的是强化学习路线,理论上能从数据里提炼出物理规律,举一反三,学到的是真正的「技能」。 VLA 还有两个硬伤。 **第一,数据成本太高。** 除了谷歌、阿里这种量级的玩家,大多数公司根本养不起真机数据采集,市面上大多是在 PI0 这个经典 VLA 模型上做点强化学习增强,缝缝补补。 **第二,天花板已经看见了。** 机器人领域最常用的测试平台 LIBERO,前十名清一色 VLA 模型,成功率全部超过或接近 99%。再往上,已经没什么空间了。 这就是为什么,明知道算力账算不过来,全行业还是在往世界模型里砸钱。 Jim Fan 在英伟达坚持做 WAM,谷歌在做 Genie,DeepMind 在做 SIMA,Physical Intelligence 押注他们的 Pi 系列,特斯拉也没停。 原因很简单:VLA 这条路,已经看得到头了。世界模型这条路,至少理论上还望不到头。 世界模型在高精度 3D 空间任务上,比如插钥匙、穿针、取出某一张卡片,仍然是类似 VLA 的模仿学习。 当前的多样化预训练策略以任务广度为优先,可能导致高精度操作所需的密集演示数据覆盖不足。 世界模型要想再进一步,计算量只会继续大幅增加。高自由度机器人需要更多自由探索数据,才能学到精准的隐式逆动力学模型。 因为从未来视觉状态到电机控制指令的映射,会随运动学复杂度呈指数级增长。 到那个时候,就不是两张 GB200 能搞定的了,而是要一个 300 万美元的 NVL72 机柜。如何量化隐式逆动力学模型的精度,仍是行业待解的难题。 那有没有可能为世界模型设计一款专用芯片,来解决落地问题? **这又是一个鸡生蛋、蛋生鸡的悖论。** 目前机器人真正量产落地的几乎没有,大多是 Demo 或科研性质,出货量很低,能过三位数的都非常罕见。如此低的量,还要做专用芯片,成本估计比 GB200 还高。 反过来,这么高的价格,又会进一步阻碍世界模型落地。 上图是扩散模型的 GPU 利用率分析。Batch Size 即批处理数量,世界模型的核心就是 DiT 架构,而机器人的应用场景里,Batch Size=1。 也就是说,GPU(也可以扩展到 NPU)的利用率只有 10-15%,效率很低。 简单来说,矩阵运算单元天生是「批量选手」,Batch=1 这种单兵作战的场景,它根本玩不转。 这里展开说一下: 在固定形状的小矩阵块(张量核心,GPU 和 NPU 里的 AI 运算单元)上,把成百上千个乘加并行铺在一片专用电路里,一条指令完成 **D = A·B + C**,其中 A、B、C、D 都是小矩阵(比如 16×16)。 相比标量单元逐个乘积累加,单位面积和功耗能做的乘加多出一个数量级。 但天下没有白来的算力密度,代价是这块电路只接受固定形状、固定数据布局的输入。软件想用上它,就不能再写朴素的标量三重循环: 必须把矩阵切成硬件规定的瓦片,按硬件要求的布局摆好数据再送入。 Batch=1 这种情况,张量单元没法摆好数据,只能退到无所不能的标量处理单元上。在英伟达 GPU 里,就是 CUDA 核心。 说到底,张量单元只能粗粒度大批量处理,没法细粒度单一处理。 要处理 Batch=1 这种情况,最简单的办法就是退回 CPU 时代:每核独立分支、循环、PC + 指令存储 + 本地 SRAM。 这不仅适配 Batch=1,还适配 Decode、MoE 专家路由、可变长 KV cache,也就是 Agentic AI 最需要的长上下文场景。 除了 Batch=1 之外,扩散采样算法的核心操作:词表扫描、归约、排序、掩码选取——有大量的内存碎片和对齐开销,这些延迟与采样步数成正比。 论文《Beyond GEMM-Centric NPUs: Enabling Efficient Diffusion LLM Sampling》指出,扩散大模型采样阶段的时延占比高达 71%,是推理的核心瓶颈。 VAE 阶段,采样步数越多通常准确度越高。Action 阶段,去噪步数可以大幅压缩,目前大部分从早期的四五十步压缩到五到十步,甚至一步直出。 但关键的 VAE 阶段,步数压缩太多会导致性能大幅下降。 针对这种工作量,要采用解耦的混合精度存储层级,分设向量、浮点、整数 SRAM,搭配专用归约和逐元素计算单元,针对性优化采样的非 GEMM 操作。还要通过专用解量化器,实现 HBM 与片上存储的高效数据流转,适配采样的内存访问特性。 Batch=1 和存储碎片化,让世界模型专用芯片的大部分面积都用来做 SRAM 存储、分支、循环、PC+ 指令存储,真正做运算的面积占比必然下降。 也就是说,AI 算力远低于同样成本的 NPU 和 GPU。这会让纸面数据很难看,难以打动那些只看矩阵算力数字的客户。同时 HBM 的使用,也让其成本很难压到 1 万美元以下。 如果上面这些判断成立,谁会受影响最大? - 英伟达自己的机器人故事,节奏会被迫放慢。一边喊着 WAM 是未来,一边还得靠 GR00T 这样的 VLA 撑住现在的业务。 - FigureAI 这类押注通用人形机器人的公司,商业化周期只能继续拉长。 - Physical Intelligence 们用世界模型讲的估值故事,短期内不太好兑现。 - 国内一众机器人公司,该用 VLA 的,还是会继续用 VLA。 芯片公司也一样:短期内真正卖得出去的,还是 VLA 优化路线的芯片,不是世界模型专用芯片。 **唯一的例外,可能是自动驾驶。** 具身智能和自动驾驶领域内的世界模型,还略有不同。具身智能要考虑比较复杂的逆动力学,参数比较多,想要落地几乎不可能。 自动驾驶领域,早期的世界模型参数都很小,甚至有低于 1 亿的。近期世界模型大量使用视频生成模型做骨架,参数暴增,落地难度也在持续增加。 但相对具身智能,自动驾驶领域还有希望,尤其是车企可以自产自用,没有「鸡生蛋蛋生鸡」的悖论。 不过具身智能厂家要做世界模型专用芯片,必然面临巨额亏损。影响机器人落地的因素很多,不止世界模型,还有昂贵的电机、机械成本等等。 从现在能看到的论文和硬件数据看,世界模型距离机器人规模化落地,还有一段不短的距离。 未来几年,VLA 大概率仍是主流,并且已经摸到了部分场景的天花板。 世界模型更像是一个长期的研究方向,还在寻找通往现实世界的楼梯。 两者之间隔着的,不只是算法差距,更是**硬件成本、能耗、延迟和工程复杂度。** 至于这道题最后怎么解,留给时间去回答。 ### 相关股票 - [NVDA.US](https://longbridge.com/zh-CN/quote/NVDA.US.md) - [HUAWEI.NA](https://longbridge.com/zh-CN/quote/HUAWEI.NA.md) - [NVDL.US](https://longbridge.com/zh-CN/quote/NVDL.US.md) - [07788.HK](https://longbridge.com/zh-CN/quote/07788.HK.md) - [07388.HK](https://longbridge.com/zh-CN/quote/07388.HK.md) - [NVDY.US](https://longbridge.com/zh-CN/quote/NVDY.US.md) - [NVDD.US](https://longbridge.com/zh-CN/quote/NVDD.US.md) - [NVDX.US](https://longbridge.com/zh-CN/quote/NVDX.US.md) - [NVDQ.US](https://longbridge.com/zh-CN/quote/NVDQ.US.md)