
256TOPS、35W,後摩用一顆芯片掀起智能駕駛新戰事

本不平靜的智能駕駛芯片江湖,再添新變局。
5 月 10 日,後摩智能重磅發佈智能駕駛芯片鴻途™H30,該芯片物理算力高達 256TOPS@INT8,與時下備受追捧的 256TOPS 英偉達 Orin X 不相上下,典型功耗只有 35W,能效比之高可見一斑。
這塊芯片性能如此強勁的背後,在於其採用了顛覆性的底層架構設計——存算一體。
與大多數芯片基於馮·諾依曼架構打造不同,存算一體通過在存儲單元內完成部分或全部的運算,極大地解決了芯片性能受存儲帶寬限制的瓶頸,且降低了功耗需求。
鴻途™H30 的推出對於行業來説具有重大的意義,其大算力、極致能效比、超低延時、低成本等特性,正好吻合智能汽車對於芯片的需求。
當下,智能駕駛行業正在面臨性能提升、成本下探的關鍵發展期,作為國內首款存算一體智駕芯片,該芯片註定將引發一系列的連鎖反應。
「從大型計算機到個人 PC,再到現在的手機,技術發展與應用變革的趨勢表明,每 1000 倍效率提升將會創造一個新的計算時代,伴隨着 AI 技術的躍進,今天的芯片也有望在計算能力和效率上有 1000 倍以上的提升,後摩希望做出極效的 AI 芯片,實現萬物智能。」後摩智能創始人兼 CEO 吳強在發佈會上如此説道。
01、存算一體,顛覆智能駕駛芯片
正如開頭所説的,後摩採用了存算一體這種新的底層架構來設計芯片。
所謂存算一體,從字面意思上來説,就是存儲和計算融為一體。
首先需要明確的一點是,所有的 AI 算法包括深度學習,本質上是在下達指令,做大量的乘加計算,體現在芯片層面,則是一大堆晶體管的開開閉閉。
在過去按照馮·諾依曼架構設計的芯片下,AI 計算過程簡單理解是這樣的:數據通過設備輸入到存儲器,處理器(計算單元)從存儲器中獲取指令和數據,進行計算,處理完後輸出結果,寫回存儲器。
這種架構的顯著特點是計算單元與存儲單元分離,在執行計算時,數據在二者之間高頻地遷移,在面對常規計算量時,這樣做尚足以勝任工作,然而隨着自動駕駛、ChatGPT 等大數據模型出現,對於算力需求急劇提升,馮·諾依曼架構開始遭遇瓶頸。
舉例來説,以矩陣乘法為主的 Transformer 類計算,大多數的步驟是在訪問內存,而非執行計算,儘管大量數據頻繁在計算單元與存儲單元之間移動,但由於存儲器讀寫的速度不夠快,導致數據被「堵塞」在訪存過程中,並未真正投入計算,由此使得計算系統的有效帶寬大大降低,系統算力的增長舉步維艱。
儘管可以通過多核 (如 CPU)/眾核 (如 GPU) 並行加速技術提升算力,但這將帶來功耗和成本的提升。
應用存算一體新架構,可以解決這個難題,其底層邏輯是將 AI 計算中大量乘加計算的權重部分,直接留在存儲單元中計算,以優化數據傳輸路徑,從而大幅提升計算效率。
而這正是後摩智能設計智能駕駛芯片 IP 的思路,公司聯合創始人兼研發副總裁陳亮分享道,通過在傳統的 SRAM 電路旁,加入包括 Activation Driver、乘法器、加法樹、累加器等定製化電路結構,後摩成功實現高能效的存內並行乘加運算。
「計算電路緊挨着存儲單元,數據被讀出的同時可以在原地進行乘加計算,相較於(馮·諾伊曼架構下)Row by Row 的數據讀取方式,極大地提高了並行性。」
這樣的 IP 設計擁有超高的計算密度,使得「大算力」得以實現;基於 SRAM 的純數字設計,還滿足全精度要求;架構上是完全的存內計算,也減少了訪存功耗。
基於此,後摩面向智能駕駛場景打造了專用 IPU(Intelligence Processing Unit,處理器架構)——天樞架構。
陳亮表示,取名「天樞」在於其設計理念借鑑融合了庭院式的中國傳統住宅和現代高層公寓樓的不同風格。
在他看來,庭院式代表着集中式的存儲和計算架構,特斯拉 FSD 芯片正是如此,通過堆積大量芯片資源以及高並行性,帶來性能提升。
然而,這在遇到算力要求更大、計算靈活性要求更高的場景下,容易受到數據規模的限制,此時計算效率急劇下降,數據的並行性和計算資源的並行性無法匹配。
「這樣的架構設計類似於古典中式庭院,它向內合圍成一個小的院子,集各種功能於一身,使得人與人、人和自然之間可以非常高效溝通,但是因為院落面積終究有限,所能容納的居住人數也有限,且設計和建造這樣的庭院難度和成本極大,所以它的可拓展性就比較差。」
而現代西式的高層公寓就截然不同,其採用完全相同的獨立小單元,可以在三維空間中自由拓展,以容納更多的人,類比芯片結構,就是將一個算力很大的核切分成若干個小核,細分到極致。「不過這樣的架構下,人和自然之間、人和人之間的溝通效率就會變得很低。」
後摩的做法是融合了中式庭院和西式高樓的特點,陳亮解釋道,先打造一個優美的庭院,以大布局設計保障計算資源利用效率,在此基礎上,再借鑑現代高層建築的方式,以多核/多硬件線程的方式靈活擴展算力,「這樣我們就實現了芯片效率、靈活性和可擴展性的完美平衡。」
02、能效比力壓英偉達 Orin,鴻途™H30 未來可期
立足於天樞架構,後摩成功研發出首款存算一體智駕芯片——鴻途™H30。
該芯片物理算力達到 256TOPS@INT8,典型功耗 35W,簡單計算可得,SoC 層面的能效比達到了 7.3TOPS/Watt,而在傳統的馮·諾依曼架構下,採用 12nm 相同工藝,所能實現的能效比多在 2TOPS/Watt 的水平。
發佈會上,後摩聯合創始人兼產品副總裁信曉旭以 Resnet50 為例,更為直觀地展示了鴻途™H30 這一優異的性能指標。
在 Resnet50 v1.5,輸入圖片尺寸是 224x224 的測試條件下,當「batch size = 8」時,鴻途™H30 達到了 10300 幀/秒的性能,是某國際巨頭旗艦芯片的 2.3 倍,而在「batch size = 1」時,這一差距更為明顯,鴻途™H30 性能達到了 8700 幀/秒,而國際巨頭的芯片性能僅為 1520 幀/秒,前者是後者的 5.7 倍。
「國際巨頭的芯片需要在更高的 batch size 的情況才能更好地發揮性能,但高 batch size 帶來的是延時的增加。而我們架構針對智能駕駛場景特殊優化的,因此在低 batch 下 (也就是更低延時),性能就能夠充分發揮。」
另一參數——實際業務下的計算效率更能説明本質差別。基於上述相同的條件,鴻途™H30 在「batch size = 8」條件下,計算效率達到了 294FPS/Watt,是國際友商的 4.6 倍,「batch size = 1」時,則達到了 11.3 倍。
而這還是在不同製程下的對比,鴻途™H30 基於 12nm 工藝,而國際巨頭芯片基於 8nm 工藝,不難理解,如果將二者轉化成同一工藝節點對比,存算一體架構的芯片計算效率優勢將會更明顯。
鴻途™H30 的規格參數還不止這些,其支持 Memory 擴展,帶寬達到 128GB/S,同時,內部還集成了 16 路的 1080P 的視頻編碼單元和解碼單元,在外部的高速接口上,採用 PCle 4.0 的連接,向下兼容,lane 數可配,支持 RC 和 EP mode。
多重「硬實力」加持下,鴻途™H30 成功運行常用的經典 CV 網絡和多種自動駕駛先進網絡,包括當前業內最受關注的 BEV 網絡模型以及廣泛應用於高階輔助駕駛領域的 Pointpillar 網絡模型。
信曉旭透露,以鴻途™H30 打造的智能駕駛解決方案已經在合作伙伴的無人小車上完成部署,「這是業界第一次基於存算一體架構的芯片成功運行端到端的智能駕駛技術棧。」
在發佈會現場,後摩還專門推出了基於鴻途™H30 打造的智能駕駛硬件平台——力馭®,其 CPU 算力高達 200 Kdmips,AI 算力為 256Tops,支持多傳感器輸入,能夠為智能駕駛提供更充沛的算力支持;在功耗上,力馭®平台僅為 85W,可採用更加靈活的散熱方式,實現更低成本的便捷部署。
衡量一款芯片好不好,除了看硬件上的「硬實力」,還要看軟件上的易用性,這其中工具鏈發揮着重要的作用。信曉旭認為,除了追求芯片在 PPA 指標上的競爭力之外,還要確保在軟件工具鏈的競爭力,「要打造高效,易用的軟件開發工具鏈,讓算法開發人員用得舒服、用得爽。」
汽車之心瞭解到,為了幫助客户和合作夥伴用好芯片,後摩基於鴻途™H30 芯片自主研發了一款軟件開發工具鏈——後摩大道™,以無侵入式的底層架構創新保障了通用性的同時,進一步實現了鴻途™H30 的高效、易用。
信曉旭表示,在芯片和工具鏈的雙重配合下,後摩能夠向智能駕駛市場提供更優選擇。他透露,鴻途™H30 將於今年 6 月份開始給 Alpha 客户送測。
「我們的研發人員還在加班加點地調試,進行送測之前的最後準備工作,這將會是後摩用存算一體重構智能駕駛芯片的開端。」
03、格局未定的智能駕駛芯片江湖,再次迎來大洗牌
在後摩發佈鴻途™H30 之前,似乎沒有玩家在芯片底層架構做改動,即使是打響大算力芯片前裝量產第一槍的國際巨頭英偉達,目前也是沿着馮·諾伊曼架構不斷迭代自己的產品。
然而隨着智能駕駛往更高階和更普及化方向發展,對於架構創新的呼喚,顯得愈發緊迫。
一方面,從高速公路、快速路到城區道路,智能駕駛面臨的場景越來越複雜,為了識別各種異形物,玩家們部署了 Transformer 等大模型,由此也帶來算力需求的急劇上升,業內估計從當前火熱的城市 NOA 到未來走向 L3/L4 級自動駕駛,芯片算力將從幾百 TOPS 往上千 TOPS 增長,然而在傳統的馮·諾依曼架構設計下,存儲帶寬制約算力向上拓展的空間;
另一方面,智能駕駛功能正在加速向下滲透,工信部數據顯示,2022 年,智能網聯乘用車 L2 級及以上輔助駕駛系統的市場滲透率提升至 34.9%,較 2021 年增加 11.4 個百分點,有數據預測,2025 年,該功能的滲透率將進一步上升至 70%,在此過程中,智駕芯片的成本需要不斷降低,以滿足主機廠大量裝車的需求,然而隨着摩爾定律失效,依靠改進芯片製程工藝來降本的方式已然難以為繼。
可以看到,無論是從算力需求角度,還是從行業降本訴求來看,傳統的馮·諾伊曼架構已經適應趨勢的發展,到了不得不變革的地步。
後摩推出首款存算一體芯片鴻途™H30,無疑精準切中了這一痛點,並在「天下未定」的市場格局下,佔據了有利先機。
吳強表示,鴻途™H30 直接消除了「存」「算」界限,使計算能效達到數量級提升,且由於不依賴於先進的存儲工藝或封裝技術,僅通過底層架構的創新,在 12nm 的製程上,也能把算力做到幾百 TOPS,且不增加成本。
另外,因為功耗較低,還減少了投向複雜散熱系統的成本,讓 10 多萬左右的平價車能夠用上高算力芯片,以此實現智能駕駛功能。
「只有幫助客户實現更低成本的便捷部署,才能推動智能駕駛應用走入尋常百姓家。」
需要指出的是,鴻途™H30 還有一個容易被忽視的優點——供應鏈安全。眾所周知,中國半導體行業正在遭受全球地緣政治影響,對於車企而言,確保芯片供應鏈安全、自主可控,具有重大的戰略意義。
後摩推出的鴻途™H30 能夠做到滿足市場算力需求的同時,不依賴製程工藝,這無疑給車企吃下一顆「定心丸」。
中國電動汽車百人會副理事長兼秘書長張永偉在發佈會上也指出,鴻途™H30 將有利於解決汽車芯片供應鏈中存在的同質化競爭問題,助力提升產業鏈的韌性和供應鏈的安全性。
從智能駕駛興起到現在,芯片領域一直在變,從單片機到 SOC,從小算力到大算力,從與算法綁定封閉,到軟硬解耦走向開放,如今,又迎來底層架構的革新,而每一次變化,都將意味着市場格局的重新洗牌。
信曉旭表示,如今就像是芯片行業的「內燃機時刻」,在汽車發展最早期,由於是蒸汽機提供動力,能量轉換效率十分低,導致當時的汽車淪為少數人的玩具,後面隨着內燃機的推出,能量效率得到大幅提升,由此大大加速了汽車普及,為後面近百年汽車產業的繁榮,奠定了堅實的底層技術基礎。
「作為目前業界計算效率最高的智駕芯片,鴻途™H30 在今天推出,像極了那樣的時刻。」
就在鴻途™H30 正待上車的時間節點,後摩智能又開啓了第二代智能駕駛芯片產品鴻途™H50 的研發,後者基於新一代更先進的天璇架構設計,支持自然散熱條件,整體計算效率更高,預計將於 2024 年推出,支持客户 2025 年的量產車型。
隨着後摩在存算一體方向持續發力,悄然間,一個新的智能駕駛芯片時代開啓了。
$智能駕駛(516520.SH)
本文版權歸屬原作者/機構所有。
當前內容僅代表作者觀點,與本平台立場無關。內容僅供投資者參考,亦不構成任何投資建議。如對本平台提供的內容服務有任何疑問或建議,請聯絡我們。


