---
title: "理想亮牌：VLA，是物理 AI 時代的入場券"
type: "Topics"
locale: "zh-HK"
url: "https://longbridge.com/zh-HK/topics/39442629.md"
description: "還是那身皮衣、還是那個男人以及信息量爆炸的演講現場。轉眼間科技春晚，從蘋果發佈會變成了 NVIDIA GTC 大會。這裏成了全球 AI 界華山論劍的舞台，在自家主場上，NVIDIA 將物理 AI 重壓在自動駕駛上。NVIDIA 一口氣拿出了突圍 L4 自動駕駛全家桶：圍繞自動駕駛底座 DRIVE Hyperion 的安全架構、新一代開放推理模型以及交互式仿真模型。在 GTC 自動駕駛分會場..."
datetime: "2026-03-23T08:13:01.000Z"
locales:
  - [en](https://longbridge.com/en/topics/39442629.md)
  - [zh-CN](https://longbridge.com/zh-CN/topics/39442629.md)
  - [zh-HK](https://longbridge.com/zh-HK/topics/39442629.md)
author: "[汽车之心](https://longbridge.com/zh-HK/profiles/3726156.md)"
---

# 理想亮牌：VLA，是物理 AI 時代的入場券

還是那身皮衣、還是那個男人以及信息量爆炸的演講現場。

**轉眼間科技春晚，從蘋果發佈會變成了 NVIDIA GTC 大會。**

**這裏成了全球 AI 界華山論劍的舞台**，在自家主場上，NVIDIA 將物理 AI 重壓在自動駕駛上。

NVIDIA 一口氣拿出了突圍 L4 自動駕駛全家桶：圍繞自動駕駛底座 DRIVE Hyperion 的安全架構、新一代開放推理模型以及交互式仿真模型。

在 GTC 自動駕駛分會場，中國玩家氣場強大，理想基座模型負責人詹錕在 GTC 劇透了理想下一代自動駕駛架構 MindVLA-o1。

詹錕也成了國內少數能與英偉達自動駕駛部門負責人吳新宙、特斯拉 AI 副總裁 Ashok Elluswamy 同台演講的基座模型負責人。

這就如李想所説，**「理想內部的大量 90 後、95 後已經勝任技術研發一號位角色」。**

2025 年結束，理想的賬户裏還躺着 **1021 億現金儲蓄**。這也意味着理想在物理 AI 上的佈局都可以再想遠一點，甚至是一種從終局倒推研發，去思考理想新一代智駕之於物理 AI 的價值。

**這種對 AI 的倔強，李想和黃仁勳是類似的。**

黃仁勳堅信，儘管 NVIDIA 自動駕駛業務營收僅佔其營收的 1%，但自動駕駛在技術層面已經是一個被解決的問題，它將會成為數萬億美元量級市場。

而李想堅信，自動駕駛是可以打造出類人的「硅基世界」。

無形中，理想已經通過 GTC 大會回應了一切：**賣車與搞 AI，其實從不矛盾。**

**01、VLA，物理 AI 的提速器**

當今的 AI 分兩種：一類數字 AI，另一類物理 AI。

前者在虛擬世界裏思考，擅長處理信息、生成內容並幫助用户做出決策，整個處理過程都存在於比特世界中。

後者則需要先感知再決策，最後還要執行物理動作。

物理世界的交互行為，註定了物理 AI 比數字 AI 更需要精確推理與及時反應。

**這也就造成了一個現象：相比數字 AI，物理 AI 發展緩慢。**

數字 AI 短短兩年，就經歷了從被動提問的 Deepseek，再到主動執行的 Open Claw 的轉變。

而以具身智能、自動駕駛為代表的物理 AI，相比起來仍然差距甚遠。

機器人還沒能走入千家萬户幫用户洗衣服、幹家務，自動駕駛發展距離 L4 好像永遠跑不完「最後 500 米」。

就連輕舟智航創始人於騫也發出靈魂質問：**「為什麼 10 年前 AI 就能打敗人類圍棋冠軍，在自動駕駛領域卻仍然難以媲美人類駕駛能力？」**

問題出現在了哪裏？從自動駕駛進化過程可以看到答案。

**第一階段：規則時代。**

自動駕駛偏規則系統，系統迭代緩慢，每個模塊都依靠大量人工經驗調參。

**第二階段上半場：初級 AI 時代。**

自動駕駛系統依靠端到端 VA（視覺 - 行動）架構為主，從視覺輸入再到行動，這種直驅模式主要依靠模仿學習，類似於昆蟲思考，需要大量數據量堆砌後，看到物體才能下意識做出反應。

**第二階段下半場：類人 AI 時代。**

自動駕駛系統擁有多模態輸入、輸出，例如，在 VA（視覺 - 行動）架構之間就要增加「思考模塊」。

因此物理 AI 慢於數字 AI 的原因在於——**模型對物理世界的思考還不夠。**

想想看，從 2024 年年底中國智駕玩家切換至端到端架構，其實才不到兩年。這段時間，還不足以讓所有人完全解決智駕的「思考問題」。

這一階段的自動駕駛，在呼喚新的技術範式，可以在端到端基礎上，把模型「會思考」的問題解決。

理想又一次成為「破壁人」。

這次 GTC 上，理想發佈命名為 MindVLA-o1 的新 VLA 架構，全稱為「基於統⼀ Vision Language-Action 的 Omni 架構」。

這一架構不僅直面了當下 VLA 的主流問題，包括：

-   3D 空間、語言思考和行為之間存在對齊效率不夠理想
-   長尾場景 (需要合成數據和強化學習）
-   高計算成本與內存開銷

以及，它真正讓自動駕駛向 L4 關鍵能力邁進，從詹錕演示的視頻可見：車輛有了自主識別、思考的能力。

車型行駛在兩側停滿車的雙車道上，駕駛員提出「幫我把車停到前面橘色車子旁邊」的語音指令之後，車輛就找準右前方橙色 SUV，自主準確停車。

這種能把人類語言指令，進行拆分理解、思考之後，生成行駛軌跡的能力，在行業內是非常少見的。

另外，該模型還能延展到具身智能機器人場景。

理想首次對外展示了，新架構在機器人領域的「可移植能力」。既可以通過控制機械臂實現倒飲料的動作任務，也可以在給定真實世界前視圖的情況下，進行俯視角操作。

這些都説明了，理想新一代 VLA 模式，不僅把自動駕駛帶入了一個全新階段，也打開了通向物理 AI 世界的入口。

**02、看向終局，造出「硅基人」的數字大腦**

理想之所以堅定押注 VLA，源於它對物理 AI 的前瞻判斷。

2024 年底第一場 AI Talk 上，李想就篤定認為，AI 最終會進化成「硅基家人」。

當時，一家車企高調談論 AI、具身智能，很容易被理解為「不務正業」。結果，恰恰相反。從「AI 定義汽車」的切口往裏深挖，這件事其實順理成章。

汽車本就是一個大號機器人：傳感器負責感知環境，計算系統負責決策，底盤與電機負責執行動作。相比機器人、機械臂尚且缺乏高質量數據源，汽車的成長空間顯然更具確定性。

從這個角度看，**自動駕駛很可能是物理 AI 最先落地的場景。**

今年 CES 上，黃仁勳再次強調了類似判斷：AI 正在從數字世界走向物理世界。

因此，把汽車與具身智能綁定，不是跨界，而是一條非常自然的技術演化路徑。它的終點，很可能就是一個能夠像家人一樣理解、陪伴甚至主動關懷人的「硅基人」。

這也與理想此前提出的「司機 Agent」概念形成了某種呼應，一個可以替代人類駕駛的智能體，本質上就是「硅基人」的雛形。

問題隨之變得更加具體：如果汽車的終點是「硅基人」，那麼它的「大腦」應該長什麼樣？

MindVLA-o1 就是理想的答案。

上一階段的 VLA 司機大模型，解決的是多模態統一的問題：視覺、語言和動作被放進同一個模型框架。

MindVLA-o1 往前走了一步，打造出一套完整的認知系統。

其中最關鍵的第一步，**是讓 AI 建立起真正的「3D 世界觀」。**

當前 AI 視覺訓練存在一個典型誤區：只要讓 AI「看夠」視頻，它就能學會開車。

但現實沒那麼簡單。二維圖像能夠告訴模型「看見了什麼」，卻很難告訴它「物體之間的空間關係」。

舉個例子，正前方几十米外停着一輛大卡車人類司機會自然判斷出卡車的距離、高度以及車道寬度，然後安全繞行。

但如果 AI 只是一個「二維腦」，它會做出兩種錯誤決策，要麼過度保守直接剎停，要麼從看似存在的空隙中強行通過。

原因就在於，這樣的 AI 無法計算出車頭到卡車側面、後視鏡與卡車尾部等關鍵的安全邊界。

人類在成長早期就建立了這種空間直覺，AI 也需要類似的過程。

理想給出的解決方式是 3D ViT。

相比傳統 BEV（鳥瞰圖）方案容易丟失高度信息，3D ViT 能夠更完整保留三維結構，同時疊加語義信息，讓模型既知道「哪裏有東西」，也知道「那是什麼」。

訓練過程中，視頻流被重建為三維場景，空間位置、點雲、語義和像素被統一編碼，再由 3D ViT 提取空間特徵。

這個過程有點像教小孩接球，一開始很難接到，但在很長一段時間裏，大人不斷把球扔過去，直到某一天，他突然能判斷球的軌跡。

空間直覺一旦形成，動作就會變得自然。

不過，理解空間只是第一步，真正的挑戰是把看見、思考和行動連成一個閉環。

為此，MindVLA-o1 引入了多模態思考能力。模型不僅要識別場景，還要對交通行為進行推理，並預測接下來可能發生什麼。

為了讓這種推理能力更加可控，理想在這裏加入了一層關鍵結構：**預測式隱世界模型。**

可以把它理解成一個 AI 推理用的「模擬沙盤」。在真正行動之前，模型會先在隱空間裏推演不同決策可能帶來的結果，再選擇最優策略。

有意思的是，特斯拉在 FSD V14 中引入的高斯潑濺技術也在試圖解決類似問題：**為自動駕駛構建一個更加連續、真實的三維環境表示。**

當 AI 面對多車交互、遮擋或突發行為時，這種「先在腦中演練一遍」的能力，會明顯提高決策穩定性。

值得一提的是，作為硅基人的「數字大腦」，MindVLA-o1 的能力邊界顯然不止於自動駕駛，正如在演講中詹錕強調，它同樣可以擴展至機器人及各種物理系統，並且已經有了演示雛形。

在理想構建的一整套面向具身智能的 AI 框架中，具備環境理解、推理和生成預測能力的 MindVLA-o1，依然充當了最堅實的底座。

而為什麼從自動駕駛開始？因為在所有物理世界任務裏，自動駕駛是唯一一個具備高頻交互、強約束環境、海量真實數據、以及閉環反饋的場景。

理想的戰略，是將自動駕駛從一項具體的垂直應用，升維為孕育通用物理 AI 的訓練場。通過在駕駛場景中不斷積累對現實世界的通用理解與行動能力，為未來模型向更廣泛場景的遷移奠定基礎。

這才是它在通用物理 AI 時代卡位的真正籌碼。

**03、車企懂 AI，才能造好下一代車**

如果把電車的演進方向簡單劃分，大概會有三種：

第一種是**傳統老路**，電車依然只是電車，繼續堆配置、拼參數，在既有產品框架裏做數據更新。

第二種稍微有點新意，**電車變成智能終端**，把手機和電腦的娛樂、辦公體驗搬進車裏，本質是換了一塊屏幕。

第三種則完全不同，**電車變成機器**人。它能夠自動駕駛，也能理解環境、主動行動，成為用户生活中的智能夥伴。

前兩種充其量是優化，只有第三種，才是進化。

追溯汽車工業史，能稱之為「進化」的更新不多，內燃機出現是一次，油轉電是一次，而 AI 主導的智能化驅動，又會是新一次。

如果汽車變成一個可以感知、思考並行動的智能體，決定體驗上限的，將會是模型基座能力。

所以，**不會做 AI 的車企，依然可以造車，但很難定義下一代車。**

理想只想當定義者。

今年二季度，理想會推出全新一代理想 L9，它是理想第一台完全按照具身智能體邏輯打造的車，傳統汽車談結構、動力、製造等，但理想在這台車上，卻安上了「硅基人」的結構：

-   大腦：MindVLA-o1；
-   心臟：馬赫 100 芯片；
-   神經系統：星環 OS 操作系統；
-   身體：800V 全主動懸架與全線控轉向。

只生硬套一層概念的話，不符合理想的作風。

有兩點值得説明，其一，具身智能體的車沒有參照物，從大腦到身體，理想又是全棧自研；其二，新一代理想 L9 的目標是拉開代際差，除了最強基座 MindVLA-o1，馬赫 100 芯片也是絕對殺手鐧，兩顆總算力達到了 2560TOPS，單顆有效算力是 Thor-U 的三倍。

改革不會只在產品層面，**造出一台具身智能機器人的公司，必須是一傢俱身智能公司。**

理想今年大刀闊斧的組織重構，目標就是為了讓公司結構，匹配「造一個智能體」的複雜度。

如何按照智能體邏輯造車，就如何按照智能體邏輯開展工作，據悉，理想研發體系不再按軟件與硬件劃分，而是按照人體結構拆分為四個系統：

-   臟器系統負責芯片、數據與操作系統等基礎能力；
-   腦系統專注於感知、預訓練、強化學習等 AI 能力；
-   軟件本體負責構建系統級 Agent；
-   硬件本體則面向具身智能設計能源、驅動與控制體系。

帶來的直接結果，是迭代效率的躍遷，按照李想説法，自動駕駛模型從兩週一更，變成了一天一更。

市場從不懷疑新勢力的改革魄力，何況它是理想。

現階段，理想已經完成了從車企向具身智能企業的蜕變，兩點可以説明：

第一，理想是少數真正以**「產品經理邏輯 +AI 能力」驅動自動駕駛的企業。**相比之下，特斯拉更強調工程效率，華為遵循生態邏輯，小鵬偏重技術導向。理想的獨特之處在於，始終從「用户需要什麼體驗」出發，再思考如何藉助 AI 實現這一體驗。

第二，理想是行業內**首個明確提出「司機 Agent」概念的企業。**當大多數企業仍停留在功能優化層面時，理想已經以終局思維和系統視角展開佈局，着眼於構建一個具備思考與執行能力的智能體。

不難發現，理想有兩件事始終沒變。

一是它還在造車，但不是讓汽車與 AI 簡單疊加，而是用 AI 驅動的方式，打造司機與生活助理——不僅能運輸，還能接孩子、取快遞。

二是它的落點，**始終是「車與家」。**

還記得四年前，理想 L9 用「冰箱、彩電、大沙發」在激烈的汽車市場中撕開一道裂縫，把汽車變成了「移動的家」。

四年後，全新一代 L9 登場，目標依然不變：改善用户家庭生活。

技術革新換代，但理想還是理想。

$理想汽車(LI.US) $理想汽車-W(02015.HK)

### 相關股票

- [02015.HK](https://longbridge.com/zh-HK/quote/02015.HK.md)
- [NVDA.US](https://longbridge.com/zh-HK/quote/NVDA.US.md)
- [TSLA.US](https://longbridge.com/zh-HK/quote/TSLA.US.md)
- [LI.US](https://longbridge.com/zh-HK/quote/LI.US.md)
- [NVDL.US](https://longbridge.com/zh-HK/quote/NVDL.US.md)
- [07788.HK](https://longbridge.com/zh-HK/quote/07788.HK.md)
- [07388.HK](https://longbridge.com/zh-HK/quote/07388.HK.md)
- [NVDY.US](https://longbridge.com/zh-HK/quote/NVDY.US.md)
- [NVDD.US](https://longbridge.com/zh-HK/quote/NVDD.US.md)
- [NVDX.US](https://longbridge.com/zh-HK/quote/NVDX.US.md)
- [NVDQ.US](https://longbridge.com/zh-HK/quote/NVDQ.US.md)
- [TSDD.US](https://longbridge.com/zh-HK/quote/TSDD.US.md)
- [TSLL.US](https://longbridge.com/zh-HK/quote/TSLL.US.md)
- [TSLQ.US](https://longbridge.com/zh-HK/quote/TSLQ.US.md)
- [09366.HK](https://longbridge.com/zh-HK/quote/09366.HK.md)
- [07766.HK](https://longbridge.com/zh-HK/quote/07766.HK.md)
- [07366.HK](https://longbridge.com/zh-HK/quote/07366.HK.md)
- [TSLR.US](https://longbridge.com/zh-HK/quote/TSLR.US.md)