理想亮牌：VLA，是物理 AI 时代的入场券

还是那身皮衣、还是那个男人以及信息量爆炸的演讲现场。

转眼间科技春晚，从苹果发布会变成了 NVIDIA GTC 大会。

这里成了全球 AI 界华山论剑的舞台，在自家主场上，NVIDIA 将物理 AI 重压在自动驾驶上。

NVIDIA 一口气拿出了突围 L4 自动驾驶全家桶：围绕自动驾驶底座 DRIVE Hyperion 的安全架构、新一代开放推理模型以及交互式仿真模型。

在 GTC 自动驾驶分会场，中国玩家气场强大，理想基座模型负责人詹锟在 GTC 剧透了理想下一代自动驾驶架构 MindVLA-o1。

詹锟也成了国内少数能与英伟达自动驾驶部门负责人吴新宙、特斯拉 AI 副总裁 Ashok Elluswamy 同台演讲的基座模型负责人。

这就如李想所说，「理想内部的大量 90 后、95 后已经胜任技术研发一号位角色」。

2025 年结束，理想的账户里还躺着 1021 亿现金储蓄。这也意味着理想在物理 AI 上的布局都可以再想远一点，甚至是一种从终局倒推研发，去思考理想新一代智驾之于物理 AI 的价值。

这种对 AI 的倔强，李想和黄仁勋是类似的。

黄仁勋坚信，尽管 NVIDIA 自动驾驶业务营收仅占其营收的 1%，但自动驾驶在技术层面已经是一个被解决的问题，它将会成为数万亿美元量级市场。

而李想坚信，自动驾驶是可以打造出类人的「硅基世界」。

无形中，理想已经通过 GTC 大会回应了一切：卖车与搞 AI，其实从不矛盾。

01、VLA，物理 AI 的提速器

当今的 AI 分两种：一类数字 AI，另一类物理 AI。

前者在虚拟世界里思考，擅长处理信息、生成内容并帮助用户做出决策，整个处理过程都存在于比特世界中。

后者则需要先感知再决策，最后还要执行物理动作。

物理世界的交互行为，注定了物理 AI 比数字 AI 更需要精确推理与及时反应。

这也就造成了一个现象：相比数字 AI，物理 AI 发展缓慢。

数字 AI 短短两年，就经历了从被动提问的 Deepseek，再到主动执行的 Open Claw 的转变。

而以具身智能、自动驾驶为代表的物理 AI，相比起来仍然差距甚远。

机器人还没能走入千家万户帮用户洗衣服、干家务，自动驾驶发展距离 L4 好像永远跑不完「最后 500 米」。

就连轻舟智航创始人于骞也发出灵魂质问：「为什么 10 年前 AI 就能打败人类围棋冠军，在自动驾驶领域却仍然难以媲美人类驾驶能力？」

问题出现在了哪里？从自动驾驶进化过程可以看到答案。

第一阶段：规则时代。

自动驾驶偏规则系统，系统迭代缓慢，每个模块都依靠大量人工经验调参。

第二阶段上半场：初级 AI 时代。

自动驾驶系统依靠端到端 VA（视觉 - 行动）架构为主，从视觉输入再到行动，这种直驱模式主要依靠模仿学习，类似于昆虫思考，需要大量数据量堆砌后，看到物体才能下意识做出反应。

第二阶段下半场：类人 AI 时代。

自动驾驶系统拥有多模态输入、输出，例如，在 VA（视觉 - 行动）架构之间就要增加「思考模块」。

因此物理 AI 慢于数字 AI 的原因在于——模型对物理世界的思考还不够。

想想看，从 2024 年年底中国智驾玩家切换至端到端架构，其实才不到两年。这段时间，还不足以让所有人完全解决智驾的「思考问题」。

这一阶段的自动驾驶，在呼唤新的技术范式，可以在端到端基础上，把模型「会思考」的问题解决。

理想又一次成为「破壁人」。

这次 GTC 上，理想发布命名为 MindVLA-o1 的新 VLA 架构，全称为「基于统⼀ Vision Language-Action 的 Omni 架构」。

这一架构不仅直面了当下 VLA 的主流问题，包括：

3D 空间、语言思考和行为之间存在对齐效率不够理想
长尾场景 (需要合成数据和强化学习）
高计算成本与内存开销

以及，它真正让自动驾驶向 L4 关键能力迈进，从詹锟演示的视频可见：车辆有了自主识别、思考的能力。

车型行驶在两侧停满车的双车道上，驾驶员提出「帮我把车停到前面橘色车子旁边」的语音指令之后，车辆就找准右前方橙色 SUV，自主准确停车。

这种能把人类语言指令，进行拆分理解、思考之后，生成行驶轨迹的能力，在行业内是非常少见的。

另外，该模型还能延展到具身智能机器人场景。

理想首次对外展示了，新架构在机器人领域的「可移植能力」。既可以通过控制机械臂实现倒饮料的动作任务，也可以在给定真实世界前视图的情况下，进行俯视角操作。

这些都说明了，理想新一代 VLA 模式，不仅把自动驾驶带入了一个全新阶段，也打开了通向物理 AI 世界的入口。

02、看向终局，造出「硅基人」的数字大脑

理想之所以坚定押注 VLA，源于它对物理 AI 的前瞻判断。

2024 年底第一场 AI Talk 上，李想就笃定认为，AI 最终会进化成「硅基家人」。

当时，一家车企高调谈论 AI、具身智能，很容易被理解为「不务正业」。结果，恰恰相反。从「AI 定义汽车」的切口往里深挖，这件事其实顺理成章。

汽车本就是一个大号机器人：传感器负责感知环境，计算系统负责决策，底盘与电机负责执行动作。相比机器人、机械臂尚且缺乏高质量数据源，汽车的成长空间显然更具确定性。

从这个角度看，自动驾驶很可能是物理 AI 最先落地的场景。

今年 CES 上，黄仁勋再次强调了类似判断：AI 正在从数字世界走向物理世界。

因此，把汽车与具身智能绑定，不是跨界，而是一条非常自然的技术演化路径。它的终点，很可能就是一个能够像家人一样理解、陪伴甚至主动关怀人的「硅基人」。

这也与理想此前提出的「司机 Agent」概念形成了某种呼应，一个可以替代人类驾驶的智能体，本质上就是「硅基人」的雏形。

问题随之变得更加具体：如果汽车的终点是「硅基人」，那么它的「大脑」应该长什么样？

MindVLA-o1 就是理想的答案。

上一阶段的 VLA 司机大模型，解决的是多模态统一的问题：视觉、语言和动作被放进同一个模型框架。

MindVLA-o1 往前走了一步，打造出一套完整的认知系统。

其中最关键的第一步，是让 AI 建立起真正的「3D 世界观」。

当前 AI 视觉训练存在一个典型误区：只要让 AI「看够」视频，它就能学会开车。

但现实没那么简单。二维图像能够告诉模型「看见了什么」，却很难告诉它「物体之间的空间关系」。

举个例子，正前方几十米外停着一辆大卡车人类司机会自然判断出卡车的距离、高度以及车道宽度，然后安全绕行。

但如果 AI 只是一个「二维脑」，它会做出两种错误决策，要么过度保守直接刹停，要么从看似存在的空隙中强行通过。

原因就在于，这样的 AI 无法计算出车头到卡车侧面、后视镜与卡车尾部等关键的安全边界。

人类在成长早期就建立了这种空间直觉，AI 也需要类似的过程。

理想给出的解决方式是 3D ViT。

相比传统 BEV（鸟瞰图）方案容易丢失高度信息，3D ViT 能够更完整保留三维结构，同时叠加语义信息，让模型既知道「哪里有东西」，也知道「那是什么」。

训练过程中，视频流被重建为三维场景，空间位置、点云、语义和像素被统一编码，再由 3D ViT 提取空间特征。

这个过程有点像教小孩接球，一开始很难接到，但在很长一段时间里，大人不断把球扔过去，直到某一天，他突然能判断球的轨迹。

空间直觉一旦形成，动作就会变得自然。

不过，理解空间只是第一步，真正的挑战是把看见、思考和行动连成一个闭环。

为此，MindVLA-o1 引入了多模态思考能力。模型不仅要识别场景，还要对交通行为进行推理，并预测接下来可能发生什么。

为了让这种推理能力更加可控，理想在这里加入了一层关键结构：预测式隐世界模型。

可以把它理解成一个 AI 推理用的「模拟沙盘」。在真正行动之前，模型会先在隐空间里推演不同决策可能带来的结果，再选择最优策略。

有意思的是，特斯拉在 FSD V14 中引入的高斯泼溅技术也在试图解决类似问题：为自动驾驶构建一个更加连续、真实的三维环境表示。

当 AI 面对多车交互、遮挡或突发行为时，这种「先在脑中演练一遍」的能力，会明显提高决策稳定性。

值得一提的是，作为硅基人的「数字大脑」，MindVLA-o1 的能力边界显然不止于自动驾驶，正如在演讲中詹锟强调，它同样可以扩展至机器人及各种物理系统，并且已经有了演示雏形。

在理想构建的一整套面向具身智能的 AI 框架中，具备环境理解、推理和生成预测能力的 MindVLA-o1，依然充当了最坚实的底座。

而为什么从自动驾驶开始？因为在所有物理世界任务里，自动驾驶是唯一一个具备高频交互、强约束环境、海量真实数据、以及闭环反馈的场景。

理想的战略，是将自动驾驶从一项具体的垂直应用，升维为孕育通用物理 AI 的训练场。通过在驾驶场景中不断积累对现实世界的通用理解与行动能力，为未来模型向更广泛场景的迁移奠定基础。

这才是它在通用物理 AI 时代卡位的真正筹码。

03、车企懂 AI，才能造好下一代车

如果把电车的演进方向简单划分，大概会有三种：

第一种是传统老路，电车依然只是电车，继续堆配置、拼参数，在既有产品框架里做数据更新。

第二种稍微有点新意，电车变成智能终端，把手机和电脑的娱乐、办公体验搬进车里，本质是换了一块屏幕。

第三种则完全不同，电车变成机器人。它能够自动驾驶，也能理解环境、主动行动，成为用户生活中的智能伙伴。

前两种充其量是优化，只有第三种，才是进化。

追溯汽车工业史，能称之为「进化」的更新不多，内燃机出现是一次，油转电是一次，而 AI 主导的智能化驱动，又会是新一次。

如果汽车变成一个可以感知、思考并行动的智能体，决定体验上限的，将会是模型基座能力。

所以，不会做 AI 的车企，依然可以造车，但很难定义下一代车。

理想只想当定义者。

今年二季度，理想会推出全新一代理想 L9，它是理想第一台完全按照具身智能体逻辑打造的车，传统汽车谈结构、动力、制造等，但理想在这台车上，却安上了「硅基人」的结构：

大脑：MindVLA-o1；
心脏：马赫 100 芯片；
神经系统：星环 OS 操作系统；
身体：800V 全主动悬架与全线控转向。

只生硬套一层概念的话，不符合理想的作风。

有两点值得说明，其一，具身智能体的车没有参照物，从大脑到身体，理想又是全栈自研；其二，新一代理想 L9 的目标是拉开代际差，除了最强基座 MindVLA-o1，马赫 100 芯片也是绝对杀手锏，两颗总算力达到了 2560TOPS，单颗有效算力是 Thor-U 的三倍。

改革不会只在产品层面，造出一台具身智能机器人的公司，必须是一家具身智能公司。

理想今年大刀阔斧的组织重构，目标就是为了让公司结构，匹配「造一个智能体」的复杂度。

如何按照智能体逻辑造车，就如何按照智能体逻辑开展工作，据悉，理想研发体系不再按软件与硬件划分，而是按照人体结构拆分为四个系统：

脏器系统负责芯片、数据与操作系统等基础能力；
脑系统专注于感知、预训练、强化学习等 AI 能力；
软件本体负责构建系统级 Agent；
硬件本体则面向具身智能设计能源、驱动与控制体系。

带来的直接结果，是迭代效率的跃迁，按照李想说法，自动驾驶模型从两周一更，变成了一天一更。

市场从不怀疑新势力的改革魄力，何况它是理想。

现阶段，理想已经完成了从车企向具身智能企业的蜕变，两点可以说明：

第一，理想是少数真正以「产品经理逻辑 +AI 能力」驱动自动驾驶的企业。相比之下，特斯拉更强调工程效率，华为遵循生态逻辑，小鹏偏重技术导向。理想的独特之处在于，始终从「用户需要什么体验」出发，再思考如何借助 AI 实现这一体验。

第二，理想是行业内首个明确提出「司机 Agent」概念的企业。当大多数企业仍停留在功能优化层面时，理想已经以终局思维和系统视角展开布局，着眼于构建一个具备思考与执行能力的智能体。

不难发现，理想有两件事始终没变。

一是它还在造车，但不是让汽车与 AI 简单叠加，而是用 AI 驱动的方式，打造司机与生活助理——不仅能运输，还能接孩子、取快递。

二是它的落点，始终是「车与家」。

还记得四年前，理想 L9 用「冰箱、彩电、大沙发」在激烈的汽车市场中撕开一道裂缝，把汽车变成了「移动的家」。

四年后，全新一代 L9 登场，目标依然不变：改善用户家庭生活。

技术革新换代，但理想还是理想。

$Li Auto(LI.US) $LI AUTO-W(02015.HK)