汽车之心
2023.11.29 03:44

智駕里程超 1 億公里,毫末闖進自動駕駛 3.0 時代

portai
我是 PortAI,我可以總結文章信息。

​隨着人工智能技術方向邁向大模型階段,以及智能駕駛在城市場景的落地,自動駕駛技術迎來重大變革機遇,正在進入以數據驅動為核心,以大模型、大數據、大算力為特徵的自動駕駛 3.0 時代。

自動駕駛 3.0 時代,是毫末智行 CEO 顧維灝在 2022 年 9 月的 AI DAY 上提出的一個技術概念,是對自動駕駛技術過去二十年技術發展階段的準確劃分,分別是:

  • 硬件驅動為主的自動駕駛 1.0 時代;
  • 軟件驅動為主的自動駕駛 2.0 時代;
  • 數據驅動為主的自動駕駛 3.0 時代。

其中,相較於前面兩個階段,3.0 時代的關鍵是在數據驅動下,AI 算法的訓練方式發生了根本性變化:

即從小模型、小數據的任務型訓練升級為大模型大數據的通用型預訓練方式,其中所對應需要的智能駕駛真實行駛里程數據規模至少要在一億公里。

11 月 29 日,毫末宣佈其乘用車用户輔助駕駛里程達到一億公里

這一數據在 2022 年 9 月時僅 1700 萬公里,在 2023 年初接近 2500 萬公里,在 4 月時達到了 4000 萬公里。

由此可見,隨着毫末智駕產品落地規模和用户活躍度的增長,毫末智能駕駛數據積累迎來了加速的曲線增長,為毫末所致力於打造的數據智能體系提供了源源不斷的真實場景數據。

獲得一億公里的量產智能駕駛真實場景數據,標誌着毫末成為第一個進入自動駕駛 3.0 時代的中國自動駕駛技術公司,也成為毫末打造數據閉環驅動系統的階段性的里程碑。

01 從 1.0 到 3.0 時代,自動駕駛的兩次技術範式變革

自動駕駛作為一項新型技術出現,可以從 2004 年 DARPA 舉辦第一屆自動駕駛挑戰賽算起,至今正好將近二十年時間。

之後這二十年中,自動駕駛技術一直在「感知 - 決策 - 執行」經典框架下,沿着硬件、算力、算法、數據持續升級的方向前進。

發展至今,一個巨大變量就是人工智能技術的革命性突破,即深度學習算法以及 AI 大模型技術的出現,使得自動駕駛迎來質變時刻。

數據驅動成為推動這場技術質變的關鍵。

與眾多技術範式一樣,自動駕駛技術的進展遵循着從量變引發質變的規律。

結合自動駕駛演變歷程與發展規律,自動駕駛技術的發展階段可以從自動駕駛行駛數據規模、感知傳感器模式及感知算法實現方式、認知算法實現方式以及數據處理及 AI 算法模型訓練方式,這四個維度進行對比。

自動駕駛的 1.0 時代,大致是從 2004 年到 2014 年之間,自動駕駛從始至終以實現無人駕駛為目標,主導者主要是美國高校和谷歌這樣的科技公司。

和主機廠在安全性、性價比、車規級等要求下僅實現 L0-L1 的低級別駕駛輔助不同,這一時期的自動駕駛車輛掛滿了各種大大小小傳感器硬件,簡直可以説武裝到了牙齒,激光雷達成為自動駕駛汽車必不可少的配置。

車端的感知能力,主要靠激光雷達,比拼的是雷達數量、線束數量,從而實現更可靠的道路障礙物的測距、測速,靜態環境則主要依靠高精地圖來實現;在認知上,則基本使用人工規則的方式來實現。

由於車輛整體成本比較高,所以車輛數量有限,導致自動駕駛里程規模比較少,數據積累當時在數百萬公里左右。因此,此時距離真正安全可靠的無人駕駛的目標還有相當大差距。

自動駕駛 2.0 時代,大致是從 2014 年至 2021 年期間。

這一階段,大量的自動駕駛初創公司紛紛出現,傳統主機廠也嘗試以投資、收購等方式捲入自動駕駛,被稱為新勢力的特斯拉更是在新能源車站穩腳跟之後,在 2014 年開始推出了 Autopilot 智能駕駛系統。

這期間,更大算力的車端計算芯片陸續出現,車規級傳感器的數量也在快速增加,終於迎來了深度學習技術在車上的廣泛應用。

在感知上,各個傳感器各自為戰,用一些小模型和少量數據做訓練,得到單個傳感器的識別結果,然後進行感知結果級的融合;在認知上,依然是人工規則和一些機器學習算法為主。

隨着自動駕駛公司運營測試車隊的增加和測試範圍的擴大,自動駕駛行駛里程也快速在增加,達到數千萬公里。

而典型代表的特斯拉,在 2019 年之後,隨着特斯拉的量產車型走出產能低谷,搭載其智能駕駛系統給的車輛的行駛里程快速突破上億公里,快速構築起特斯拉 FSD 系統的數據閉環系統。

自動駕駛 3.0 時代,從 2021 年肇始,特斯拉無疑成為這場技術變革的推動者,其標誌就是以數據驅動的 AI 大模型技術開始應用在車端上,推動自動駕駛技術進入新階段。

相比較前兩階段中 AI 技術在自動駕駛技術中少量參與,3.0 時代是一個完全不一樣的時代,數據驅動意味着利用 AI 大模型使得數據自己可以訓練自己。

自動駕駛公司重點投入將要放在數據通道和智算中心的打通和建設上,以此可以更高效地獲取數據,並把數據轉化為知識。

在感知方向,會採用多個傳感器、不同模態傳感器的原始數據聯合輸出感知結果。

在認知方向,通過認知大模型處理真實人駕數據和場景,形成可解釋的場景化駕駛策略,再配以 AI 的實時計算,擬人化融入社會交通流。

AI 算法的訓練方式也發生了根本變化,就是從小模型、少數據升級為大模型、大數據的訓練方式,因此所對應的智能駕駛里程所產出的數據規模至少在一億公里以上。

當前,行業對於自動駕駛 3.0 時代的階段特徵基本已經達成了共識。

以「自動駕駛 3.0 時代」為關鍵詞,可以發現過去的一年多時間,這一概念頻繁出現在行業報告、論壇主題以及行業媒體的各種表述中。

行業普遍認為,隨着自動駕駛技術範式向 3.0 時代演進,數據驅動的算法模型的演進和數據閉環成為技術競爭更重要的勝負手,從而更好推動「Transformer+BEV」為主要架構的感知路線的落地,加速了城市場景高階輔助駕駛的落地,為進化到端到端自動駕駛提供可能。

而提出 3.0 時代概念的毫末智行,則通過量產輔助駕駛的規模化落地,提早佈局數據智能閉環體系,大力投入建設雲端智算中心,為適應自動駕駛 3.0 時代的技術趨勢,做好了充足的準備。

02 3.0 時代,毫末構築的大模型、大數據、大算力技術範式

2021 年,特斯拉率先將 Transformer 架構引入自動駕駛系統當中,並在其當年的 AI Day 上公佈了基於 Transformer 模型的「純視覺」BEV 感知方案,同時也公佈了其以數據驅動 AI 算法進化的數據閉環體系,使其成為自動駕駛 3.0 時代的典型玩家。

同一時期,剛剛成立不到兩年的毫末智行,也已經注意到 Transformer 架構在視覺領域的最新成果,認識到 Transformer 架構在自動駕駛的場景中在未來極有可能替代原有的 CNN 算法架構,成為視覺任務的主流神經網絡範式。

在當時的感知方案中,毫末智行設計了可進行車道線識別的 BEV Transformer,就是在得到視覺數據後,使用 Resnet+FPN 對 2D 圖像進行處理,形成 BEV Mapping,再通過多個 Cross Attention 機制訓練,最終組成一個完整的 BEV 空間。

與純視覺方案不同的是,毫末的方案採用了視覺 + 激光雷達的多模態感知,BEV 投射與 Lidar 模型融合,再結合 BEV 的時序特徵,進一步提升識別的準確率和連續性。

隨着對 Transformer 架構能力的不斷深入應用,毫末構建起不依賴高精地圖而更多依靠激光雷達 + 視覺的重感知方案,從而構建起更強能力的時空感知的 BEV 空間,完成更準確的車道線輸出和一般障礙物的識別。

當 Transformer 架構的不斷擴大和參數規模的增長,以及所要處理的感知數據規模快速增長,帶來了對於雲端計算平台能力的緊迫需求。

為此,經過一年左右的籌備,毫末在 2023 年初推出了自動駕駛行業首個智算中心雪湖·綠洲(MANA OASIS),AI 算力規模達到 67 億億次每秒浮點運算,成為當時最大 AI 算力的自動駕駛智算中心。

基於 Transformer 架構,毫末在感知技術上探索建立了多個感知大模型。

比如,針對自動駕駛數據標註的視覺自監督大模型,可以從圖片數據過渡到 4D Clips 視頻數據形態,對海量 Clips 數據進行預訓練,再通過少量人工標註 clips 數據進行 Finetune,訓練出檢測跟蹤模型,從而使得模型具備自動標註能力,然後就可以實現對大量單幀未標註數據向 Clips 標註數據的自動轉化,從而節省了 98% 的人工標註成本。

再比如,在場景重建和仿真能力上,毫末將 NeRF 技術應用在自動駕駛場景重建和仿真能力中,構建的 3D 重建大模型可以通過改變視角、光照、紋理材質的方法,生成高真實感數據,從而可以低成本構造大量自動駕駛的 Corner case。

還有構建了多模態互監督大模型,引入了激光雷達作為視覺監督信號,直接使用視頻數據來推理場景的通用結構表達,可以完成城市多種異形障礙物等通用障礙物的識別。

此外還構建了動態環境大模型,即在 BEV 的 feature map 基礎上,以標精地圖作為引導信息,使用自迴歸編解碼網絡,將 BEV 特徵解碼為結構化的拓撲點序列,實現車道拓撲預測,讓車端感知能力,能像人類一樣在標準地圖的導航提示下,就可以實現對道路拓撲結構的實時推斷。

這些感知大模型仍然是以不同感知任務的方式來進行訓練,而很快毫末意識到應該採用一個更為通用的感知大模型,將多個下游任務集中到一起,形成一個更為基礎的預訓練大模型的架構,將道路場景環境的三維結構、速度場和紋理分佈融合到同一個訓練目標裏進行訓練,適配所有主流視覺感知任務。

在認知決策場景,毫末率先採用類似 ChatGPT 生成式預訓練大模型的實現方式,對自動駕駛認知決策模型進行持續優化。為此,毫末構建起人駕自監督大模型,探索使用大量人駕數據,去訓練模型做出擬人化的駕駛決策。為了讓模型能夠學習到人類司機的優秀的駕駛策略。

在此基礎上,毫末通過引入駕駛數據,使用 RLHF(人類反饋強化學習)技術,推出了自動駕駛生成式大模型 DriveGPT(雪湖·海若)。

其中,DriveGPT 模型參數規模達到 1200 億,在預訓練階段引入數千萬公里量產車駕駛數據,在 RLHF 階段引入數萬段人工精選的困難場景接管 Clips 數據,從而保證大模型在預訓練階段以及 RLHF 階段的數據量規模和數據的泛化性能。

基於生成式預訓練大模型所建立的技術範式,毫末很快將 DriveGPT 大模型進行了進一步的升級,也就是圍繞通用感知、通用認知能力,建立起一個統一的大模型,探索端到端自動駕駛的技術新範式。

在感知階段,DriveGPT 通過構建通用感知大模型來實現對真實物理世界的學習,並通過與 NeRF 技術整合,將真實世界建模到三維空間,再加上時序形成 4D 向量空間。 

在構建對真實物理世界的 4D 感知基礎上,毫末進一步引入開源的圖文多模態大模型,實現 4D 向量空間到語義空間的對齊,實現跟人類一樣的「識別萬物」的能力。

在認知階段,基於通用感知大模型構建的「識別萬物」能力的基礎上,DriveGPT 通過構建駕駛語言(Drive Language)來描述駕駛環境和駕駛意圖,再結合導航引導信息以及自車歷史動作,並藉助外部大語言模型 LLM 的海量知識來輔助給出駕駛解釋和駕駛建議。

DriveGPT 的認知大模型藉助大語言模型 LLM,將世界知識引入到駕駛策略中,使得自動駕駛認知決策獲得了人類社會的常識和推理能力,也就是具備世界知識,從而大幅度提升自動駕駛策略的可解釋性和泛化性。

毫末智行 CEO 顧維灝在 AI DAY 上對這一通用的自動駕駛大模型有一段精闢的論述:

「未來的自動駕駛系統一定跟人類駕駛員一樣,不但具備對三維空間的精確感知測量能力,而且能夠像人類一樣理解萬物之間的聯繫、事件發生的邏輯和背後的常識,並且能基於這些人類社會的經驗來做出更好的駕駛策略。」

03 新範式邁向 3.0 時代

總體來看,自動駕駛 3.0 時代的技術升級不再是簡單的算法的疊加,不是傳感器的堆料,也不是場景的簡單複製,而是自動駕駛技術方式的重構,也就是以數據驅動和大模型的方式重塑自動駕駛的技術路線。

顧維灝也給出了 3.0 時代的技術架構的技術演進模式:

當前先是在雲端實現感知大模型、認知大模型的能力突破,並將車端各類小模型逐步統一到感知模型和認知模型,同時將控制模塊也模型化。

下一階段,車端智駕系統的演進路線一方面是會逐步全鏈路模型化,另一方面是逐步大模型化,即小模型逐漸統一到大模型內。雲端大模型也可以通過剪枝、蒸餾等方式逐步提升車端的感知能力。最終階段,在未來車端、雲端都是端到端的自動駕駛大模型。

可以預計,伴隨自動駕駛 3.0 時代技術變革同時到來的趨勢,量產智能駕駛開始走向城市場景。

而隨着量產輔助駕駛乘用車的大規模上路,又會快速積累開放道路環境下的海量數據以及人駕接管數據,會帶來類型豐富的真是場景數據。

這將真正實現以數據驅動的方式,推動自動駕駛技術發生質的飛躍,最終在 3.0 時代抵達完全自動駕駛這一應許之地。

本文版權歸屬原作者/機構所有。

當前內容僅代表作者觀點,與本平台立場無關。內容僅供投資者參考,亦不構成任何投資建議。如對本平台提供的內容服務有任何疑問或建議,請聯絡我們。