
理想亮牌:VLA,是物理 AI 時代的入場券

還是那身皮衣、還是那個男人以及信息量爆炸的演講現場。
轉眼間科技春晚,從蘋果發佈會變成了 NVIDIA GTC 大會。
這裏成了全球 AI 界華山論劍的舞台,在自家主場上,NVIDIA 將物理 AI 重壓在自動駕駛上。
NVIDIA 一口氣拿出了突圍 L4 自動駕駛全家桶:圍繞自動駕駛底座 DRIVE Hyperion 的安全架構、新一代開放推理模型以及交互式仿真模型。
在 GTC 自動駕駛分會場,中國玩家氣場強大,理想基座模型負責人詹錕在 GTC 劇透了理想下一代自動駕駛架構 MindVLA-o1。
詹錕也成了國內少數能與英偉達自動駕駛部門負責人吳新宙、特斯拉 AI 副總裁 Ashok Elluswamy 同台演講的基座模型負責人。
這就如李想所説,「理想內部的大量 90 後、95 後已經勝任技術研發一號位角色」。
2025 年結束,理想的賬户裏還躺着 1021 億現金儲蓄。這也意味着理想在物理 AI 上的佈局都可以再想遠一點,甚至是一種從終局倒推研發,去思考理想新一代智駕之於物理 AI 的價值。
這種對 AI 的倔強,李想和黃仁勳是類似的。
黃仁勳堅信,儘管 NVIDIA 自動駕駛業務營收僅佔其營收的 1%,但自動駕駛在技術層面已經是一個被解決的問題,它將會成為數萬億美元量級市場。
而李想堅信,自動駕駛是可以打造出類人的「硅基世界」。
無形中,理想已經通過 GTC 大會回應了一切:賣車與搞 AI,其實從不矛盾。
01、VLA,物理 AI 的提速器
當今的 AI 分兩種:一類數字 AI,另一類物理 AI。
前者在虛擬世界裏思考,擅長處理信息、生成內容並幫助用户做出決策,整個處理過程都存在於比特世界中。
後者則需要先感知再決策,最後還要執行物理動作。
物理世界的交互行為,註定了物理 AI 比數字 AI 更需要精確推理與及時反應。
這也就造成了一個現象:相比數字 AI,物理 AI 發展緩慢。
數字 AI 短短兩年,就經歷了從被動提問的 Deepseek,再到主動執行的 Open Claw 的轉變。
而以具身智能、自動駕駛為代表的物理 AI,相比起來仍然差距甚遠。
機器人還沒能走入千家萬户幫用户洗衣服、幹家務,自動駕駛發展距離 L4 好像永遠跑不完「最後 500 米」。
就連輕舟智航創始人於騫也發出靈魂質問:「為什麼 10 年前 AI 就能打敗人類圍棋冠軍,在自動駕駛領域卻仍然難以媲美人類駕駛能力?」
問題出現在了哪裏?從自動駕駛進化過程可以看到答案。
第一階段:規則時代。
自動駕駛偏規則系統,系統迭代緩慢,每個模塊都依靠大量人工經驗調參。
第二階段上半場:初級 AI 時代。
自動駕駛系統依靠端到端 VA(視覺 - 行動)架構為主,從視覺輸入再到行動,這種直驅模式主要依靠模仿學習,類似於昆蟲思考,需要大量數據量堆砌後,看到物體才能下意識做出反應。
第二階段下半場:類人 AI 時代。
自動駕駛系統擁有多模態輸入、輸出,例如,在 VA(視覺 - 行動)架構之間就要增加「思考模塊」。
因此物理 AI 慢於數字 AI 的原因在於——模型對物理世界的思考還不夠。
想想看,從 2024 年年底中國智駕玩家切換至端到端架構,其實才不到兩年。這段時間,還不足以讓所有人完全解決智駕的「思考問題」。
這一階段的自動駕駛,在呼喚新的技術範式,可以在端到端基礎上,把模型「會思考」的問題解決。
理想又一次成為「破壁人」。
這次 GTC 上,理想發佈命名為 MindVLA-o1 的新 VLA 架構,全稱為「基於統⼀ Vision Language-Action 的 Omni 架構」。
這一架構不僅直面了當下 VLA 的主流問題,包括:
- 3D 空間、語言思考和行為之間存在對齊效率不夠理想
- 長尾場景 (需要合成數據和強化學習)
- 高計算成本與內存開銷
以及,它真正讓自動駕駛向 L4 關鍵能力邁進,從詹錕演示的視頻可見:車輛有了自主識別、思考的能力。
車型行駛在兩側停滿車的雙車道上,駕駛員提出「幫我把車停到前面橘色車子旁邊」的語音指令之後,車輛就找準右前方橙色 SUV,自主準確停車。
這種能把人類語言指令,進行拆分理解、思考之後,生成行駛軌跡的能力,在行業內是非常少見的。
另外,該模型還能延展到具身智能機器人場景。
理想首次對外展示了,新架構在機器人領域的「可移植能力」。既可以通過控制機械臂實現倒飲料的動作任務,也可以在給定真實世界前視圖的情況下,進行俯視角操作。
這些都説明了,理想新一代 VLA 模式,不僅把自動駕駛帶入了一個全新階段,也打開了通向物理 AI 世界的入口。
02、看向終局,造出「硅基人」的數字大腦
理想之所以堅定押注 VLA,源於它對物理 AI 的前瞻判斷。
2024 年底第一場 AI Talk 上,李想就篤定認為,AI 最終會進化成「硅基家人」。
當時,一家車企高調談論 AI、具身智能,很容易被理解為「不務正業」。結果,恰恰相反。從「AI 定義汽車」的切口往裏深挖,這件事其實順理成章。
汽車本就是一個大號機器人:傳感器負責感知環境,計算系統負責決策,底盤與電機負責執行動作。相比機器人、機械臂尚且缺乏高質量數據源,汽車的成長空間顯然更具確定性。
從這個角度看,自動駕駛很可能是物理 AI 最先落地的場景。
今年 CES 上,黃仁勳再次強調了類似判斷:AI 正在從數字世界走向物理世界。
因此,把汽車與具身智能綁定,不是跨界,而是一條非常自然的技術演化路徑。它的終點,很可能就是一個能夠像家人一樣理解、陪伴甚至主動關懷人的「硅基人」。
這也與理想此前提出的「司機 Agent」概念形成了某種呼應,一個可以替代人類駕駛的智能體,本質上就是「硅基人」的雛形。
問題隨之變得更加具體:如果汽車的終點是「硅基人」,那麼它的「大腦」應該長什麼樣?
MindVLA-o1 就是理想的答案。
上一階段的 VLA 司機大模型,解決的是多模態統一的問題:視覺、語言和動作被放進同一個模型框架。
MindVLA-o1 往前走了一步,打造出一套完整的認知系統。
其中最關鍵的第一步,是讓 AI 建立起真正的「3D 世界觀」。
當前 AI 視覺訓練存在一個典型誤區:只要讓 AI「看夠」視頻,它就能學會開車。
但現實沒那麼簡單。二維圖像能夠告訴模型「看見了什麼」,卻很難告訴它「物體之間的空間關係」。
舉個例子,正前方几十米外停着一輛大卡車人類司機會自然判斷出卡車的距離、高度以及車道寬度,然後安全繞行。
但如果 AI 只是一個「二維腦」,它會做出兩種錯誤決策,要麼過度保守直接剎停,要麼從看似存在的空隙中強行通過。
原因就在於,這樣的 AI 無法計算出車頭到卡車側面、後視鏡與卡車尾部等關鍵的安全邊界。
人類在成長早期就建立了這種空間直覺,AI 也需要類似的過程。
理想給出的解決方式是 3D ViT。
相比傳統 BEV(鳥瞰圖)方案容易丟失高度信息,3D ViT 能夠更完整保留三維結構,同時疊加語義信息,讓模型既知道「哪裏有東西」,也知道「那是什麼」。
訓練過程中,視頻流被重建為三維場景,空間位置、點雲、語義和像素被統一編碼,再由 3D ViT 提取空間特徵。
這個過程有點像教小孩接球,一開始很難接到,但在很長一段時間裏,大人不斷把球扔過去,直到某一天,他突然能判斷球的軌跡。
空間直覺一旦形成,動作就會變得自然。
不過,理解空間只是第一步,真正的挑戰是把看見、思考和行動連成一個閉環。
為此,MindVLA-o1 引入了多模態思考能力。模型不僅要識別場景,還要對交通行為進行推理,並預測接下來可能發生什麼。
為了讓這種推理能力更加可控,理想在這裏加入了一層關鍵結構:預測式隱世界模型。
可以把它理解成一個 AI 推理用的「模擬沙盤」。在真正行動之前,模型會先在隱空間裏推演不同決策可能帶來的結果,再選擇最優策略。
有意思的是,特斯拉在 FSD V14 中引入的高斯潑濺技術也在試圖解決類似問題:為自動駕駛構建一個更加連續、真實的三維環境表示。
當 AI 面對多車交互、遮擋或突發行為時,這種「先在腦中演練一遍」的能力,會明顯提高決策穩定性。
值得一提的是,作為硅基人的「數字大腦」,MindVLA-o1 的能力邊界顯然不止於自動駕駛,正如在演講中詹錕強調,它同樣可以擴展至機器人及各種物理系統,並且已經有了演示雛形。
在理想構建的一整套面向具身智能的 AI 框架中,具備環境理解、推理和生成預測能力的 MindVLA-o1,依然充當了最堅實的底座。
而為什麼從自動駕駛開始?因為在所有物理世界任務裏,自動駕駛是唯一一個具備高頻交互、強約束環境、海量真實數據、以及閉環反饋的場景。
理想的戰略,是將自動駕駛從一項具體的垂直應用,升維為孕育通用物理 AI 的訓練場。通過在駕駛場景中不斷積累對現實世界的通用理解與行動能力,為未來模型向更廣泛場景的遷移奠定基礎。
這才是它在通用物理 AI 時代卡位的真正籌碼。
03、車企懂 AI,才能造好下一代車
如果把電車的演進方向簡單劃分,大概會有三種:
第一種是傳統老路,電車依然只是電車,繼續堆配置、拼參數,在既有產品框架裏做數據更新。
第二種稍微有點新意,電車變成智能終端,把手機和電腦的娛樂、辦公體驗搬進車裏,本質是換了一塊屏幕。
第三種則完全不同,電車變成機器人。它能夠自動駕駛,也能理解環境、主動行動,成為用户生活中的智能夥伴。
前兩種充其量是優化,只有第三種,才是進化。
追溯汽車工業史,能稱之為「進化」的更新不多,內燃機出現是一次,油轉電是一次,而 AI 主導的智能化驅動,又會是新一次。
如果汽車變成一個可以感知、思考並行動的智能體,決定體驗上限的,將會是模型基座能力。
所以,不會做 AI 的車企,依然可以造車,但很難定義下一代車。
理想只想當定義者。
今年二季度,理想會推出全新一代理想 L9,它是理想第一台完全按照具身智能體邏輯打造的車,傳統汽車談結構、動力、製造等,但理想在這台車上,卻安上了「硅基人」的結構:
- 大腦:MindVLA-o1;
- 心臟:馬赫 100 芯片;
- 神經系統:星環 OS 操作系統;
- 身體:800V 全主動懸架與全線控轉向。
只生硬套一層概念的話,不符合理想的作風。
有兩點值得説明,其一,具身智能體的車沒有參照物,從大腦到身體,理想又是全棧自研;其二,新一代理想 L9 的目標是拉開代際差,除了最強基座 MindVLA-o1,馬赫 100 芯片也是絕對殺手鐧,兩顆總算力達到了 2560TOPS,單顆有效算力是 Thor-U 的三倍。
改革不會只在產品層面,造出一台具身智能機器人的公司,必須是一傢俱身智能公司。
理想今年大刀闊斧的組織重構,目標就是為了讓公司結構,匹配「造一個智能體」的複雜度。
如何按照智能體邏輯造車,就如何按照智能體邏輯開展工作,據悉,理想研發體系不再按軟件與硬件劃分,而是按照人體結構拆分為四個系統:
- 臟器系統負責芯片、數據與操作系統等基礎能力;
- 腦系統專注於感知、預訓練、強化學習等 AI 能力;
- 軟件本體負責構建系統級 Agent;
- 硬件本體則面向具身智能設計能源、驅動與控制體系。
帶來的直接結果,是迭代效率的躍遷,按照李想説法,自動駕駛模型從兩週一更,變成了一天一更。
市場從不懷疑新勢力的改革魄力,何況它是理想。
現階段,理想已經完成了從車企向具身智能企業的蜕變,兩點可以説明:
第一,理想是少數真正以「產品經理邏輯 +AI 能力」驅動自動駕駛的企業。相比之下,特斯拉更強調工程效率,華為遵循生態邏輯,小鵬偏重技術導向。理想的獨特之處在於,始終從「用户需要什麼體驗」出發,再思考如何藉助 AI 實現這一體驗。
第二,理想是行業內首個明確提出「司機 Agent」概念的企業。當大多數企業仍停留在功能優化層面時,理想已經以終局思維和系統視角展開佈局,着眼於構建一個具備思考與執行能力的智能體。
不難發現,理想有兩件事始終沒變。
一是它還在造車,但不是讓汽車與 AI 簡單疊加,而是用 AI 驅動的方式,打造司機與生活助理——不僅能運輸,還能接孩子、取快遞。
二是它的落點,始終是「車與家」。
還記得四年前,理想 L9 用「冰箱、彩電、大沙發」在激烈的汽車市場中撕開一道裂縫,把汽車變成了「移動的家」。
四年後,全新一代 L9 登場,目標依然不變:改善用户家庭生活。
技術革新換代,但理想還是理想。
$理想汽車(LI.US) $理想汽車-W(02015.HK)
本文版權歸屬原作者/機構所有。
當前內容僅代表作者觀點,與本平台立場無關。內容僅供投資者參考,亦不構成任何投資建議。如對本平台提供的內容服務有任何疑問或建議,請聯絡我們。


