端到端自動駕駛：誰在 All in，誰在觀望

「『端到端』並非靈丹妙藥。」

乍看之下，蔚來 AI 平台負責人、資深研發總監白宇利這一觀點，容易讓外界產生蔚來動搖對端到端路線的誤會。

實際上，這是蔚來方案的重申。蔚來計劃是把規劃和控制的代碼模型化之後，再做更具整合性的「端到端」大模式。

目前，小鵬、理想、蔚來的「端到端」大模式路線，都是類似「散裝」——「打散了重裝」——「端到端」大模式。

6 月 8 日，在 2024 中國汽車重慶論壇上，理想汽車董事長兼 CEO 李想發表了關於自動駕駛技術路線的新思考：

「端到端 +VLM（視覺語言模型）+ 生成式的驗證系統，會是未來整個物理世界機器人最重要技術架構和技術體系。」

李想認為不能依賴端到端解決 corner case，而是要提升能力。用視覺語言模型即 VLM，讓車面對路口、紅綠燈等能夠及時作出反應。

作為「國內首個端到端上車」的車企，5 月 20 日，小鵬汽車宣佈上車的端到端大模型由三部分組成，分別是神經網絡 XNet（側重於感知和語義），規控大模型 XPlanner 和大語言模型 XBrain（側重於整個大場景的認知）。

小鵬、理想、蔚來的策略，有別於特斯拉提出的藉助完全依賴神經網絡處理的「端到端」大模型，解決 corner case——神經網絡只是一個環節。

説起來，國內智駕行業論壇聊起來都沒人知道，特斯拉到底是怎麼做到的。

「沒有任何人敢説端到端都是神經網絡。」在「端到端」發佈會後，何小鵬接受媒體採訪時表示，「它是在一個體系裏面完成的，就像剎車在哪裏，它一定是有規則體系的。我們在規則體系裏面有一個優勢，能夠把剎車控制器的算法沙盒做好。」

英偉達汽車事業部副總裁吳新宙認為，端到端正是智駕三部曲的最終曲。

面對終局之戰，今年 2 月，特斯拉端到端大模式啓動商業化孩子會，前後幾家新勢力代表的車企立下「端到端」上線時間表。

2024 年過去了一半，今年能否成為端到端上車「元年」？

從國內的小鵬率先上車端到端大模式，回溯到「古典主義」端到端大模式的特斯拉，要攻下端到端堡壘，國內車企應該怎麼走？繪製一張從學界到業界完整端到端大模型的圖譜，或許能夠讓人們找到車企在其中的位置。

01、小鵬之後，下一個「端到端」智駕規模化量產是誰？

2023 年 8 月，特斯拉 FSD V12 版本問世，成為首家成功量產「端到端」架構的車企。

今年 2 月，特斯拉將基於端到端架構的 FSD V12 版本向部分普通用户推送，啓動商業化落地。

FSD V12 的流暢性、令人驚豔的體驗感，初露鋒芒。

2024 年 5 月，小鵬宣佈「端到端」架構上車。

整體來説，以車企為代表，「端到端」有三大派：整車廠、自動駕駛企業、學術機構。學界和工業界一些切入「端到端」大模式甚至早於特斯拉。

車企方面，蔚來、理想、小鵬、小米、極越、智己、廣汽、長城、極氪等，成為國內第一批公開行動或表態者。

近期，蔚來單獨設立了一個大模型部，專門負責端到端的模型研發，由原感知部門和規控部門下的模型部合併而來。

調整後，蔚來智駕的核心業務，分為「雲」（大模型部）和「車」（部署架構與方案部）兩塊，取消原來按照功能（感知、地圖、數據、規控等）模塊劃分的方式。

「雲」負責創造出更好的基礎模型，去支持未來「車」端的迭代。

「雲」，意味着迅速打破算力瓶頸的可能。

目前，蔚來打通了邊緣計算的能力，車雲算力聯合調度，在蔚來整體端雲上的算力，有 287.1 EOPS，相當於 100 個分佈式的千卡訓練集羣，「這基本和特斯拉的 10 萬片 H100 的算力規模差不多。」

蔚來採取的是漸進式「端到端」大模型技術路線。

蔚來智能駕駛研發副總裁任少卿認為，做端到端大模型的前提是智駕各功能模塊都已經完成模型化，且足夠性能與效率的工程體系支撐，「大家沒辦法模型化，很多時候是因為你的工程體系支撐不了這件事」。

比如，需要有快速訓練一個模型再快速驗證的能力，「你這個事兒才玩的下去」「你得有一些基本的能力之後，（端到端大模型）這玩意才有用，否則它是個毒藥。」

2023 年年底，理想在「算法研發」團隊下也為端到端模型單獨成立了一個團隊。

算法研發除了要負責端到端模型的研發，也要負責三季度無圖城市 NOA 的量產。

目前，理想正在做端到端架構的封閉開發：端到端 +VLM（視覺語言模型）+ 生成式的驗證系統。

「最早在今年年底，最晚在明年上半年，真正有監督的 L3 自動駕駛就可以批量向用户交付了，而不是做實驗。」而且，「L4 級別無監督的自動駕駛在三年內一定能夠實現。」李想表示。

此前，理想汽車與清華大學交叉信息研究院一直在進行聯合研究。

今年 2 月，雙方團隊聯合發佈了論文《DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models》。

小鵬的端到端大模型，據説未來能實現 2 天一次迭代，未來 18 個月智駕能力提升 30 倍。

有別於外界以前覺得端到端 AI 大模型就是一個大的網絡，小鵬汽車智能駕駛技術負責人李力耘表示：

「我們對 AI 的認知也提出了 XBrain、XNet、XPlanner，既有聯繫又有分工，能夠非常好地提升 AI 智駕能力上限。」

這是小鵬真正去量產端到端大模型的一個重要原因。

除了「蔚小理」，還有幾家態度比較明確。

去年 12 月 28 日，雷軍在小米汽車發佈會上宣佈：「小米汽車首次運用自研的『端到端』感知決策大模型」，並稱這是全球首次應用於量產車。圖森未來的前 CTO 王乃巖加入小米智駕團隊，王乃巖曾指出，從業者不能被特斯拉「帶偏」，陷入到狹義的端到端理解中。
極越 CEO 夏一平表示，「下一步研發重點將是端到端大模型」。
智己汽車聯席 CEO 劉濤稱，「目前智己汽車也正在全力推動『端到端』架構落地，創造『更像人』的智能駕駛體驗」。目前，智己正和 Momenta 合作，推動端到端智駕大模型量產落地。
廣汽研究院也表示正在探索「端到端」自動駕駛方案，「並取得初步成效」。
長城（毫末智行）在去年 4 月發佈自動駕駛生成式大模型「雪湖·海若」時表示，將對自動駕駛認知決策模型進行持續優化，最終實現「端到端」自動駕駛。現階段主要用於解決自動駕駛的認知決策問題。

一些車企採取了比較謹慎的態度，比如極氪。極氪內部認為「在數據量不充分、安全性難以保證的當下，更多將『端到端』技術路線作為預研項目」。

整體來説，大部分車企和極氪類似，認可「端到端」的發展趨勢，行業轉向『端到端』架構的方向非常明確。

二是智駕供應商，已經有多家發出比較堅定的技術轉向的聲音，並有方案正在推出。目前，包括華為、Momenta、元戎啓行、商湯絕影等國內頭部企業已經公開端到端自動駕駛方案在 2024-2025 年上車的規劃。

三是學術界方面，以上海人工智能實驗室，跨界合作的華中科技大學（與地平線合作）和南洋理工大學（和英偉達合作）以及劍橋大學工程系團隊創辦的 Wayve 等為代表，推出多篇優秀論文。

上海人工智能實驗室的自動駕駛全棧可控「端到端」方案 UniAD 相關研究，獲得人工智能頂會 CVPR（國際計算機視覺與模式識別會議） 2023 年最佳論文，是「端到端」架構最受關注的項目之一。
今年 2 月，華中科技大學、地平線共同發佈了《VADv2: End-to-End Vectorized Autonomous Driving via Probabilistic Planning》，提出 VAD v2「端到端」自動駕駛模型，一個基於概率規劃的「端到端」駕駛模型。

此外，南洋理工大學和英偉達也合作提出了一個新框架。

實際上，早在幾年前英偉達已經在使用「端到端」深度學習，並開發出了無人駕駛的 Demo 系統。

署名作者 Gongjin Lan、Qi Hao 近期發佈論文《End-To-End Planning of Autonomous Driving in Industry and Academia: 2022-2023》梳理 2022 年-2023 年工業界和學術界中的自動駕駛「端到端」規劃（左側欄為各公司及研究機構項目）

「端到端」的出現是相關技術長期積累的結果，但仍處於上車的初級階段。

應對長尾問題（corner case）的能力更強，不少車企或許都能實現，但是在這背後容易忽視的是「端到端」大模型系統實現所要付出的成本。

02、大模型之後，「端到端」走向高端&低端？

「端和端」架構正在分出不同的發展脈絡。

在特斯拉 FSD V12 中，靠神經網絡模型完成的落地效果已經收到不少追捧聲音。

由於不再需要用於設置規則的具體指令，特斯拉工程師刪除了 30 萬行定義駕駛規則的 C++ 代碼。

曾備受關注的上海人工智能實驗室的自動駕駛全棧可控「端到端」方案 UniAD 的提出者李弘揚，在 2021 年注意到自動駕駛系統開源項目 Openpilot，一個「端到端」的系統設計。

相比特斯拉，他驚歎於 Openpilot 低成本實現的良好效果，並感慨：原來自動駕駛可以做得如此簡單。

這是他開啓 UniAD 研究的一個關鍵節點。

同樣是「端到端」，如果説特斯拉的「端到端」是高「端」，那麼李弘揚相關的這種低成本「端到端」可謂之低「端」。

這個對比或有不恰當之處，但是仍然極具闡釋力：

在高「端」到低「端」之間，「端到端」架構可以分出來具備不同特徵、實現效果存在差異的多個技術流派。

在自動駕駛行業，對「端到端」自動駕駛作評估有兩類辦法：

一是閉環評估和開環評估——這是每個端到端架構未來都要面對的專門測試。

閉環評估可以接受到反饋信號從而形成反饋閉環；開環評估則是分模塊進行，並和真實數據作對比。比如，UniAD 在開環評估中得到驗證，但是尚未在閉環評估中得到驗證。

那麼，哪家的「端到端」效果最好？如何用一個簡單指標來衡量端到端大模型的有效性？

何小鵬説，對於端到端大模型的硬指標，最終看接管率。今天高速如果沒有續航的問題，可以做到 1000 公里接管一次。

在城區，今天所有的城市輔助駕駛，我認為安全接管可能是百公里或者一兩百公里。但體驗接管是十公里以內。

如果在城區開 100 公里、300 公里、500 公里接管一次，體驗完全不一樣。

可以對比的是，特斯拉應用端到端神經網絡架構的 FSD V12 的平均接管歷程從此前的 166 英里（約 267 公里）提升到了 333 英里（約 537 公里）。

「端到端」的實現，與 BEV+Transformer 模型關係十分密切。

車輛在感知模塊產生 BEV（Bird『s-eye-view），即鳥瞰圖視角，始於 2014 年的一篇論文（《「Automatic Parking Based on a Bird』s Eye View Vision System》）。

Transformer 模型則是 2017 年時 Google 提出的。

2020 年前後，Transformer 模型被引入到智駕領域，特斯拉率先將 BEV 與 Transformer 結合在一起。

在 2021 年底至 2022 年間，BEV 與 Transformer 實現深度融合，通過 Attention 機制，感知模塊和預測模塊可以通過神經網絡做到「端到端」的優化。

在感知、預測、規劃、決策的分模塊的算法中，主要用於感知模塊的 BEV+Transformer 範式可以有效提升了感知精確度，能夠將感知模塊和預測模塊在統一的 3D 空間中實施，通過神經網絡直接完成「端到端」優化。

這直接促進了智駕的進一步 AI 化。

從感知、預測，深入至完全的「端到端」自動駕駛框架，最終可以用神經網絡模型全部替換此前的規則代碼——這就是特斯拉古典式的「端到端」大模式。

BEV+Transformer 模型規模化落地，也是今天「端到端」有可能迅速成為現實的一大原因。

但是，對「端到端」懷疑的聲音一直存在。

早在 2016 年，Momenta 創始人曹旭東在回覆「無人駕駛『端到端』的學習（end-to-end learning）是否靠譜？」時指出：

「對於無人駕駛，『端到端』不適合開發實用無人駕駛系統，可以做 Demo，然而大規模商用卻非常困難」。

當時曹旭東否定「端到端」的原因有三點：

一是「不聰明」。「端到端」會產生「大量冗餘數據和計算」。與之對比，如果把整個無人駕駛拆解成感知、地圖、決策三部分，分別獨立學習再融合，可以大大降低需要的數據和計算。
二是「不靈活」。在作一些系統調整後，收集數據學習的過程，往往需要推倒重來。
三是「難理解」。相比模塊化，「對於整體『端到端』學習，一旦出現問題，因為無法對症下藥」，即「黑箱」難題。

時隔多年，這些問題今天也或多或少仍然存在。

不過，當時他也坦誠，「我並不是完全否定『端到端』學習，而是無人駕駛『端到端』學習目前存在以上問題，或許在將來可以得到解決。」

時至今日，曹旭東對「端到端」的態度完全轉變，Momenta 成為最看好「端到端」落地的積極派中的一員。

這個案例，正是「端到端」近年在自動駕駛領域內境遇變化的最好展現。

幾年過去了，自動駕駛技術脈絡也從模塊化走到了神經網絡。「端到端」的面世，時候到了。

03、AI 引領革命，打贏「端到端」之戰核心靠算力？

刺激 2024 年 2 月至年中「端到端」這波話題走高，源於特斯拉 FSD 12.0 版本開啓推送，以及 Sora 的大火。

Sora 是基於「端到端」的 Transformer 來實現的。

而它生成視頻像素的能力，是解決「端到端」自動駕駛問題的關鍵。

「端到端」自動駕駛訓練的核心是視頻生成。

因此，Sora 富有質感的視頻，一定程度證明「端到端」路線的正確性。

特斯拉 CEO 馬斯克自信地對外稱：

「特斯拉擁有世界上最好的現實世界模擬和視頻生成能力」。

「特斯拉在大約一年前就能以精確的物理生成真實世界的視頻」。

與此同時，他也指出：

「我們的 FSD 訓練算力不足，所以還沒有使用其他的視頻（所有的訓練數據都來自汽車）進行訓練，但當然是可行的。今年晚些時候，當我們有空餘算力時，就會進行訓練。」

實際上，算力難題一直存在。

2023 年 8 月，馬斯克指出，FSD AI 的實現進程「眼下的限制因素在於訓練的算力，而非工程師人力」。

算力的稀缺和昂貴，已經成為制約 AI 發展的核心因素。

國內發展「端到端」，首先要考慮提升算力的實力。

從大模型之戰開始，囤算力成為各家行業公司的基本操作。

2022 年 8 月，阿里雲宣佈正式啓動張北超級智算中心，當時號稱「全球最大的智算中心」：總建設規模為 12EFLOPS（每秒 1200 億億次浮點運算）AI 算力，超過谷歌的 9EFLOPS 和特斯拉的 1.8EFLOPS。

同年 8 月 2 日，小鵬汽車宣佈和阿里雲合作在烏蘭察布建成當時中國最大的自動駕駛智算中心「扶搖」。

「扶搖」算力可達 600PFLOPS（每秒浮點運算 60 億億次），將小鵬自動駕駛核心模型的訓練速度提升了近 170 倍。

以最新公佈的車企與智駕供應商的算力情況作對比：

特斯拉：截至 2023 年 8 月，算力達到 10 EFLOPS（預計 2024 年 10 月，Dojo 智算中心算力可達 100EFLOPS）。
理想：截止 6 月，訓練平台算力達 2.4EFLOPS。
長安：最新披露，1.42EFLOPS。
蔚來：2023 年 9 月，智算集羣總算力規模為 1.4EFLOPS。
極越：2 月最新數據顯示，其算力在 1.8-2.2EFLOPS 範圍之內。
吉利：2 月和阿里雲成立「星睿智算中心」，計算能力達到 810PFLOPS。
長城：1 月毫末智行和火山引擎合作「雪湖·綠洲」智算中心，稱其算力達 670PFLOPS。
小鵬：最新披露，600PFLOPS。
華為：最新披露，3.5EFLOPS。
商湯絕影：12EFLOPS（2024 年底將達到 18EFLOPS。）——這也是國內已知的用於自動駕駛訓練的最大算力。

在華為全聯接大會 2023 期間，華為發佈昇騰 AI 計算集羣 Atlas 900 SuperCluster，並表示：「中國一半大模型的算力都是由華為提供」。

即便如此，若特斯拉如期達到最新算力目標，國內智算中心的算力都將滯後。

從 10 EFLOPS，再到下一步計劃的 100EFlops，特斯拉正在以 5 到 10 倍的增速實現算力擴張。

今年 2 月，特斯拉增加了 5 億美元投資在超算中心 Dojo，值得注意的是，特斯拉的人形機器人業務 Optimus 也將通過 Dojo 訓練。

當特斯拉已經在訓練「端到端」大模型時，國內車企及自動駕駛企業才剛起步。

6 月 4 日，馬斯克發推特表示，特斯拉買了 10 萬片卡，在德州的工廠上擴展了一個數據中心，放了 5 萬片卡進去。

那麼，在國內要做端到端大模型，需要多少量級的「卡」（大算力 GPU）？

特斯拉的 DOJO 智算中心，預計到 2024 年 10 月，總算力將達到 100EFLOPs（10 萬 PFLOPS），相當於約 30 萬塊英偉達 A100 的算力總和。

以小鵬「扶搖」自動駕駛智算中心為例，算力可達 600PFLOPS(以英偉達 A100 GPU 的 FP32 算力推算，約等於 3 萬張 A100 GPU)。

100 張大算力 GPU 可以支持一次端到端模型的訓練。大部分研發端到端自動駕駛的公司目前的訓練算力規模在千卡級別（100 張 A100）。

毫末智行表示，要實現全國都能開，2000-5000 張 GPU 已經足夠。

整體來説，儘管和特斯拉存在較大差距，但是國內車企到 2024 年底實現算力的倍數級增長，並非沒有可能，並且能夠接近 1~2 年前的特斯拉。

數據、算力、算法，人工智能發展的三件套，僅算力一項，就可能讓各大車企或自動駕駛企業拉開距離。

國內車企並不悲觀。

夏一平曾表示，「特斯拉雖然有一定領先，但極越在中國的落地能力一定更強」。

同樣是純視覺路線，極越已經進化至佔用網絡階段，確實更瞭解中國更加複雜的路況等，從數據積累的環節已經和特斯拉在走分岔路。

眼下，城市 NOA 的落地仍是眼下競爭的主戰場。城市 NOA 的刺激，「端到端」的落地，讓國內車企及智駕供應商拿出各自新方案，同台競技，決出勝負為時不遠。