理想亮牌：VLA，是物理 AI 時代的入場券

還是那身皮衣、還是那個男人以及信息量爆炸的演講現場。

轉眼間科技春晚，從蘋果發佈會變成了 NVIDIA GTC 大會。

這裏成了全球 AI 界華山論劍的舞台，在自家主場上，NVIDIA 將物理 AI 重壓在自動駕駛上。

NVIDIA 一口氣拿出了突圍 L4 自動駕駛全家桶：圍繞自動駕駛底座 DRIVE Hyperion 的安全架構、新一代開放推理模型以及交互式仿真模型。

在 GTC 自動駕駛分會場，中國玩家氣場強大，理想基座模型負責人詹錕在 GTC 劇透了理想下一代自動駕駛架構 MindVLA-o1。

詹錕也成了國內少數能與英偉達自動駕駛部門負責人吳新宙、特斯拉 AI 副總裁 Ashok Elluswamy 同台演講的基座模型負責人。

這就如李想所説，「理想內部的大量 90 後、95 後已經勝任技術研發一號位角色」。

2025 年結束，理想的賬户裏還躺着 1021 億現金儲蓄。這也意味着理想在物理 AI 上的佈局都可以再想遠一點，甚至是一種從終局倒推研發，去思考理想新一代智駕之於物理 AI 的價值。

這種對 AI 的倔強，李想和黃仁勳是類似的。

黃仁勳堅信，儘管 NVIDIA 自動駕駛業務營收僅佔其營收的 1%，但自動駕駛在技術層面已經是一個被解決的問題，它將會成為數萬億美元量級市場。

而李想堅信，自動駕駛是可以打造出類人的「硅基世界」。

無形中，理想已經通過 GTC 大會回應了一切：賣車與搞 AI，其實從不矛盾。

01、VLA，物理 AI 的提速器

當今的 AI 分兩種：一類數字 AI，另一類物理 AI。

前者在虛擬世界裏思考，擅長處理信息、生成內容並幫助用户做出決策，整個處理過程都存在於比特世界中。

後者則需要先感知再決策，最後還要執行物理動作。

物理世界的交互行為，註定了物理 AI 比數字 AI 更需要精確推理與及時反應。

這也就造成了一個現象：相比數字 AI，物理 AI 發展緩慢。

數字 AI 短短兩年，就經歷了從被動提問的 Deepseek，再到主動執行的 Open Claw 的轉變。

而以具身智能、自動駕駛為代表的物理 AI，相比起來仍然差距甚遠。

機器人還沒能走入千家萬户幫用户洗衣服、幹家務，自動駕駛發展距離 L4 好像永遠跑不完「最後 500 米」。

就連輕舟智航創始人於騫也發出靈魂質問：「為什麼 10 年前 AI 就能打敗人類圍棋冠軍，在自動駕駛領域卻仍然難以媲美人類駕駛能力？」

問題出現在了哪裏？從自動駕駛進化過程可以看到答案。

第一階段：規則時代。

自動駕駛偏規則系統，系統迭代緩慢，每個模塊都依靠大量人工經驗調參。

第二階段上半場：初級 AI 時代。

自動駕駛系統依靠端到端 VA（視覺 - 行動）架構為主，從視覺輸入再到行動，這種直驅模式主要依靠模仿學習，類似於昆蟲思考，需要大量數據量堆砌後，看到物體才能下意識做出反應。

第二階段下半場：類人 AI 時代。

自動駕駛系統擁有多模態輸入、輸出，例如，在 VA（視覺 - 行動）架構之間就要增加「思考模塊」。

因此物理 AI 慢於數字 AI 的原因在於——模型對物理世界的思考還不夠。

想想看，從 2024 年年底中國智駕玩家切換至端到端架構，其實才不到兩年。這段時間，還不足以讓所有人完全解決智駕的「思考問題」。

這一階段的自動駕駛，在呼喚新的技術範式，可以在端到端基礎上，把模型「會思考」的問題解決。

理想又一次成為「破壁人」。

這次 GTC 上，理想發佈命名為 MindVLA-o1 的新 VLA 架構，全稱為「基於統⼀ Vision Language-Action 的 Omni 架構」。

這一架構不僅直面了當下 VLA 的主流問題，包括：

3D 空間、語言思考和行為之間存在對齊效率不夠理想
長尾場景 (需要合成數據和強化學習）
高計算成本與內存開銷

以及，它真正讓自動駕駛向 L4 關鍵能力邁進，從詹錕演示的視頻可見：車輛有了自主識別、思考的能力。

車型行駛在兩側停滿車的雙車道上，駕駛員提出「幫我把車停到前面橘色車子旁邊」的語音指令之後，車輛就找準右前方橙色 SUV，自主準確停車。

這種能把人類語言指令，進行拆分理解、思考之後，生成行駛軌跡的能力，在行業內是非常少見的。

另外，該模型還能延展到具身智能機器人場景。

理想首次對外展示了，新架構在機器人領域的「可移植能力」。既可以通過控制機械臂實現倒飲料的動作任務，也可以在給定真實世界前視圖的情況下，進行俯視角操作。

這些都説明了，理想新一代 VLA 模式，不僅把自動駕駛帶入了一個全新階段，也打開了通向物理 AI 世界的入口。

02、看向終局，造出「硅基人」的數字大腦

理想之所以堅定押注 VLA，源於它對物理 AI 的前瞻判斷。

2024 年底第一場 AI Talk 上，李想就篤定認為，AI 最終會進化成「硅基家人」。

當時，一家車企高調談論 AI、具身智能，很容易被理解為「不務正業」。結果，恰恰相反。從「AI 定義汽車」的切口往裏深挖，這件事其實順理成章。

汽車本就是一個大號機器人：傳感器負責感知環境，計算系統負責決策，底盤與電機負責執行動作。相比機器人、機械臂尚且缺乏高質量數據源，汽車的成長空間顯然更具確定性。

從這個角度看，自動駕駛很可能是物理 AI 最先落地的場景。

今年 CES 上，黃仁勳再次強調了類似判斷：AI 正在從數字世界走向物理世界。

因此，把汽車與具身智能綁定，不是跨界，而是一條非常自然的技術演化路徑。它的終點，很可能就是一個能夠像家人一樣理解、陪伴甚至主動關懷人的「硅基人」。

這也與理想此前提出的「司機 Agent」概念形成了某種呼應，一個可以替代人類駕駛的智能體，本質上就是「硅基人」的雛形。

問題隨之變得更加具體：如果汽車的終點是「硅基人」，那麼它的「大腦」應該長什麼樣？

MindVLA-o1 就是理想的答案。

上一階段的 VLA 司機大模型，解決的是多模態統一的問題：視覺、語言和動作被放進同一個模型框架。

MindVLA-o1 往前走了一步，打造出一套完整的認知系統。

其中最關鍵的第一步，是讓 AI 建立起真正的「3D 世界觀」。

當前 AI 視覺訓練存在一個典型誤區：只要讓 AI「看夠」視頻，它就能學會開車。

但現實沒那麼簡單。二維圖像能夠告訴模型「看見了什麼」，卻很難告訴它「物體之間的空間關係」。

舉個例子，正前方几十米外停着一輛大卡車人類司機會自然判斷出卡車的距離、高度以及車道寬度，然後安全繞行。

但如果 AI 只是一個「二維腦」，它會做出兩種錯誤決策，要麼過度保守直接剎停，要麼從看似存在的空隙中強行通過。

原因就在於，這樣的 AI 無法計算出車頭到卡車側面、後視鏡與卡車尾部等關鍵的安全邊界。

人類在成長早期就建立了這種空間直覺，AI 也需要類似的過程。

理想給出的解決方式是 3D ViT。

相比傳統 BEV（鳥瞰圖）方案容易丟失高度信息，3D ViT 能夠更完整保留三維結構，同時疊加語義信息，讓模型既知道「哪裏有東西」，也知道「那是什麼」。

訓練過程中，視頻流被重建為三維場景，空間位置、點雲、語義和像素被統一編碼，再由 3D ViT 提取空間特徵。

這個過程有點像教小孩接球，一開始很難接到，但在很長一段時間裏，大人不斷把球扔過去，直到某一天，他突然能判斷球的軌跡。

空間直覺一旦形成，動作就會變得自然。

不過，理解空間只是第一步，真正的挑戰是把看見、思考和行動連成一個閉環。

為此，MindVLA-o1 引入了多模態思考能力。模型不僅要識別場景，還要對交通行為進行推理，並預測接下來可能發生什麼。

為了讓這種推理能力更加可控，理想在這裏加入了一層關鍵結構：預測式隱世界模型。

可以把它理解成一個 AI 推理用的「模擬沙盤」。在真正行動之前，模型會先在隱空間裏推演不同決策可能帶來的結果，再選擇最優策略。

有意思的是，特斯拉在 FSD V14 中引入的高斯潑濺技術也在試圖解決類似問題：為自動駕駛構建一個更加連續、真實的三維環境表示。

當 AI 面對多車交互、遮擋或突發行為時，這種「先在腦中演練一遍」的能力，會明顯提高決策穩定性。

值得一提的是，作為硅基人的「數字大腦」，MindVLA-o1 的能力邊界顯然不止於自動駕駛，正如在演講中詹錕強調，它同樣可以擴展至機器人及各種物理系統，並且已經有了演示雛形。

在理想構建的一整套面向具身智能的 AI 框架中，具備環境理解、推理和生成預測能力的 MindVLA-o1，依然充當了最堅實的底座。

而為什麼從自動駕駛開始？因為在所有物理世界任務裏，自動駕駛是唯一一個具備高頻交互、強約束環境、海量真實數據、以及閉環反饋的場景。

理想的戰略，是將自動駕駛從一項具體的垂直應用，升維為孕育通用物理 AI 的訓練場。通過在駕駛場景中不斷積累對現實世界的通用理解與行動能力，為未來模型向更廣泛場景的遷移奠定基礎。

這才是它在通用物理 AI 時代卡位的真正籌碼。

03、車企懂 AI，才能造好下一代車

如果把電車的演進方向簡單劃分，大概會有三種：

第一種是傳統老路，電車依然只是電車，繼續堆配置、拼參數，在既有產品框架裏做數據更新。

第二種稍微有點新意，電車變成智能終端，把手機和電腦的娛樂、辦公體驗搬進車裏，本質是換了一塊屏幕。

第三種則完全不同，電車變成機器人。它能夠自動駕駛，也能理解環境、主動行動，成為用户生活中的智能夥伴。

前兩種充其量是優化，只有第三種，才是進化。

追溯汽車工業史，能稱之為「進化」的更新不多，內燃機出現是一次，油轉電是一次，而 AI 主導的智能化驅動，又會是新一次。

如果汽車變成一個可以感知、思考並行動的智能體，決定體驗上限的，將會是模型基座能力。

所以，不會做 AI 的車企，依然可以造車，但很難定義下一代車。

理想只想當定義者。

今年二季度，理想會推出全新一代理想 L9，它是理想第一台完全按照具身智能體邏輯打造的車，傳統汽車談結構、動力、製造等，但理想在這台車上，卻安上了「硅基人」的結構：

大腦：MindVLA-o1；
心臟：馬赫 100 芯片；
神經系統：星環 OS 操作系統；
身體：800V 全主動懸架與全線控轉向。

只生硬套一層概念的話，不符合理想的作風。

有兩點值得説明，其一，具身智能體的車沒有參照物，從大腦到身體，理想又是全棧自研；其二，新一代理想 L9 的目標是拉開代際差，除了最強基座 MindVLA-o1，馬赫 100 芯片也是絕對殺手鐧，兩顆總算力達到了 2560TOPS，單顆有效算力是 Thor-U 的三倍。

改革不會只在產品層面，造出一台具身智能機器人的公司，必須是一傢俱身智能公司。

理想今年大刀闊斧的組織重構，目標就是為了讓公司結構，匹配「造一個智能體」的複雜度。

如何按照智能體邏輯造車，就如何按照智能體邏輯開展工作，據悉，理想研發體系不再按軟件與硬件劃分，而是按照人體結構拆分為四個系統：

臟器系統負責芯片、數據與操作系統等基礎能力；
腦系統專注於感知、預訓練、強化學習等 AI 能力；
軟件本體負責構建系統級 Agent；
硬件本體則面向具身智能設計能源、驅動與控制體系。

帶來的直接結果，是迭代效率的躍遷，按照李想説法，自動駕駛模型從兩週一更，變成了一天一更。

市場從不懷疑新勢力的改革魄力，何況它是理想。

現階段，理想已經完成了從車企向具身智能企業的蜕變，兩點可以説明：

第一，理想是少數真正以「產品經理邏輯 +AI 能力」驅動自動駕駛的企業。相比之下，特斯拉更強調工程效率，華為遵循生態邏輯，小鵬偏重技術導向。理想的獨特之處在於，始終從「用户需要什麼體驗」出發，再思考如何藉助 AI 實現這一體驗。

第二，理想是行業內首個明確提出「司機 Agent」概念的企業。當大多數企業仍停留在功能優化層面時，理想已經以終局思維和系統視角展開佈局，着眼於構建一個具備思考與執行能力的智能體。

不難發現，理想有兩件事始終沒變。

一是它還在造車，但不是讓汽車與 AI 簡單疊加，而是用 AI 驅動的方式，打造司機與生活助理——不僅能運輸，還能接孩子、取快遞。

二是它的落點，始終是「車與家」。

還記得四年前，理想 L9 用「冰箱、彩電、大沙發」在激烈的汽車市場中撕開一道裂縫，把汽車變成了「移動的家」。

四年後，全新一代 L9 登場，目標依然不變：改善用户家庭生活。

技術革新換代，但理想還是理想。

$理想汽車(LI.US) $理想汽車-W(02015.HK)