中國算力芯片的 “新十年”

華爾街見聞
2025.10.28 08:20
portai
我是 PortAI,我可以總結文章信息。

中國算力芯片進入新十年,過去 40 年經歷了自研與放棄的循環。最近 5 年,整機和平台廠商重返自研,推動 CPU 與 xPU 的異構計算。新規劃強調科技自立自強,聚焦半導體等關鍵技術。未來五年,國產算力芯片的突破口在於統一指令系統架構,RISC-V 有望成為標準,促進架構創新與資源高效利用。

過去 40 年,處理器芯片呈現出 “否定之否定” 的螺旋式發展道路:自研 - 放棄自研 - 自研。

最近 5 年,越來越多的整機和平台廠商,重新加入自研的 “芯片戰爭”,並且顯現出一個新趨勢——以 CPU 為中心的同構計算系統,轉變成 CPU 聯合 xPU 的異構計算。

“芯片戰爭” 中的選手要直面幾個問題:其 xPU 架構創新有多少,持續創新空間有多大、應用規模能否攤薄硬件、生態的創新成本。

剛剛公佈的 “十五五” 規劃建議稿也提到,加快科技高水平自立自強,全面增強自主創新能力,大力實施 “卡脖子” 迭代攻關,聚焦半導體等關鍵技術環節。那麼,接下來的五年、十年,對於國產 “算力芯片” 來説,突破口在哪裏?

我們認為是指令系統結構(指令集架構)的統一。

系統結構的一致性,更能推動架構層面的創新,比如把 RISC-V 作為統一指令系統,所有 CPU/GPU/xPU 都基於 RISC-V 及其擴展來開發,在擴大規模效應的同時,高效利用研發資源。

指令集相當於軟硬件 “連接器”,按標準編寫軟件,即可向硬件發出計算指令。

01 經濟規模與生態成本 決定架構的 “生與死”

計算機差不多經歷了八十多年的歷史,早期特點是集中式處理,少數專業人員通過終端設備才能訪問到昂貴的計算資源。

20 世紀 80 年代後以微處理器為基礎的 PC 和計算機網絡出現,計算模式從集中式轉化為分佈式。後來又有了智能手機和雲計算系統,計算模式進化為集中式的雲中心和 “泛在分佈” 的智能終端構成的複雜體系,且雲中心本身又是一個巨大的分佈式系統。

計算進化到今天,最為核心的 CPU,以兩種主導式的指令集為代表:PC 和服務器領域是 x86 架構,智能手機領域是 ARM 架構

x86 和 ARM 佔主導,是市場洗牌的結果。

時間往回倒退,過去 40 年業內出現了許多有特色的架構和產品,但大部分都逐漸凋零了。例如:英特爾開發的 RISC 架構 i860/i960、摩托羅推出的 68000 以及跟 IBM、Apple 聯合開發的 PowerPC 架構等等。

指令集架構,從幾十款到幾款,快速收斂的原因各有不同。

x86 戰勝 RISC,靠的是不斷向高端 RISC“抄作業”,同時根據新應用需求不斷增加指令子集,拓展新功能;PC 與服務器的 CPU 同為 x86 架構,芯片出貨量大,分攤了服務器 CPU 的研發成本,也是 x86 從競爭中脱穎而出的客觀條件。

RISC CPU 的失意,表面上是鉅額的軟硬件投入成本,根源則是無法顛覆已有軟硬件生態系統——大量已存在的標準或事實標準的接口,如指令架構系統,這種生態的統治力,英特爾、惠普曾這類聯合體也無法撼動。

回想起 1990 年代超算領域,如 nCUBE,KSR、Thinking Machine 等創業公司,既自研 CPU,又開發 MPP 超算系統,在系統架構上提出了很多引人入勝的新方案。尤其是 KSR,提出了名為 Allcache 的純緩存存儲架構(COMA),實現了第一個基於純緩存的並行超算系統,其 CPU 只跑 20MHz,功耗、散熱等效率遠遠高於同期的英特爾 486,後者主頻達到了 50MHz。

最終,各種創新性的架構都 “輸給了” x86。

不是説這些架構沒有創新性,根本上在於架構創新敵不過經濟規律。所以,在文章開頭,我們就呼籲,未來五年、十年,中國的算力芯片應該統一指令集架構。

02 架構創新難,生態構建更難:壁壘在軟件與協同

英特爾於 2000 年左右推出 Pentium 4 處理器,時鐘頻率已達到 4GHz。25 年後的今天,很多產品時鐘頻率還停留在這個水平。這是因為進入納米工藝後,摩爾定律逐漸失效,晶體管開關速度放緩。

現在,業界依賴晶體管數量的累積來提升性能,其基本的思路是並行,如增加數據位寬、增加功能部件、增加處理器核的數量等等。但增加了這麼多的部件,如何控制與管理?就要看計算機體系結構。

計算機體系結構既是硬件與軟件的接口界面,也決定了硬件與軟件的分工,根據硬件與軟件分工的不同邏輯,大致可分為三種類型:

  • 激進的結構(完全動態優化):類似上文提到的純緩存存儲架構,強調軟件在動態分析和優化方面能力有限,因此在硬件上做盡可能多的動態優化, 但這樣往往導致硬件過分複雜、功耗過高;
  • 保守的結構(靜態優化):硬件僅提供必需的設施, 如大量的寄存器或 SRAM,依賴軟件來實現高性能,這種方案的好處是硬件簡化了,缺點是編程不便、性能沒有保障;
  • 折中的結構(動靜態相結合的優化):硬件做一些動態的優化, 如高速緩存,軟件也仍有優化的餘地,通過軟硬件協同解決性能和編程問題。

由於需要運行操作系統、編譯器及各種複雜控制應用,涉及的串行因素比較多,高端 CPU 經常採用激進的結構,但由於結構異常複雜,導致正確性難以驗證,研發工作量極大。隨着熔斷、幽靈等硬件漏洞的出現,這類結構也易受瞬態執行攻擊的問題也暴露出來。

目前業界更傾向於基於這種結構——增加處理器核的數量,來提升性能,比如代表算力的 xPU 芯片,就是典型的眾核(Many Core)結構。這種架構可以匹配圖像處理、神經網絡等天然依賴並行計算的特點,只要硬件提供足夠的運算部件、存儲單元、互連機制,並由軟件程序把並行性表達出來,就可以在並行硬件上高速地執行。

英偉達 PASCAL 和 TURING 架構 GPU,擁有大量 CUDA 計算核心

英特爾 Xeon Phi,Google TPU 等,都是專門設計的眾核加速器,而更流行的 GPGPU 則陰差陽錯的成為眾核加速器——一開始只用於圖形渲染,非專門為 AI 設計。

不管是 TPU 還是 GPGPU,眾核結構 xPU 的 “算力芯片” 大規模應用,首先要解決的還是生態系統問題——在處理器上運行的各類軟件的總和,包括各種應用軟件,及支撐應用軟件開發運行的系統軟件、中間件、庫函數等。在這方面,用户之所以喜歡使用英偉達的產品,就是因為 CUDA 擁有成熟的並行軟件生態。

前面提到英特爾和惠普的合作項目。雙方於 1994 年,聯合開發了不與 x86 兼容的 EPIC 架構的 IA-64 安騰處理器,前後花了十餘年時間,耗資巨大,終究未能成功。關鍵就在於經過 40 多年演進的 x86 架構,形成了任何處理器架構都無法比擬和複製的產業生態環境。

英特爾、惠普的新架構、新產品,解決不了新的生態問題。

這裏面還有一個洞察——Gartner 分析了從 2009 到 2018 年的企業軟件市場,十年間,x86 軟件的市場份額持續上升,到 2018 年,全球投入在 x86 軟件(含企業應用軟件、基礎設施軟件、垂直專用軟件)開發上的費用高達 600 億美元,IDC 2019 年同期的數據表明,全球服務器硬件的總收入也就 800 億美元。

也就是説,軟件開發的費用遠遠高於硬件,新搞一個處理器架構已經很費錢了,基本不會有人給更多投資去開發配套的軟件。

基於這一點,可以預判,未來很長一段時間,服務器市場上 x86 CPU 仍居主導地位。

有人也許要問,ARM-64 的機會在哪裏?它的核心看點在於打破英特爾在 x86 服務器市場一家獨大的格局,因為英特爾的 CPU 毛利太高了,誰都想去分一杯羹,正如 AI 芯片廠商想去分英偉達的蛋糕一樣。

最終,ARM 服務器未來能夠取得成功,幾個原因可能是決定性的:

  • 一是掌控了全棧技術(應用)的大廠放棄 x86,如蘋果、亞馬遜,它們的生態遷移完全可控,產量或毛利率也是可控的
  • 二是端雲融合,ARM 在終端的優勢瀰漫到雲端,如 Android Cloud,ARM 服務器更適合支持 Android Apps,應用可在雲和端間隨便遷移。還有云遊戲在雲端也不需要依賴虛擬機。

x86 的故事仍在繼續,ARM 攻勢迅猛,開源的 RISC-V 則還需要努力。

關於 RISC-V,業內有很多討論,既有 ARM“價格貴” 的問題,也有開放性、可研究性的問題,但主要還是商業化的困境。

近年來,RISC-V 應用較多且相對成功的,都是軟件比較簡單的場景,即以微控制器 (MCU) 為代表的嵌入式領域,如希捷、西數等企業的存儲類產品。而以物聯網為代表的嵌入式場景,其需求非常碎片化,RISC-V 雖然可以針對應用特點自定義對指令集的擴展,但這樣分門別類地定製芯片,就失去了集成電路產業的規模效應。

軟件、應用之外,RISC-V 的硬件生態也還不成熟——有競爭優勢的高性價比處理器核的種類少,也缺乏支持多核互連的高性能片上網絡(NOC),尤其是片上網絡,業內都還在用 ARM 方案,不過 ARM 不會單獨向 RISC-V 項目授權片上網絡 IP,而要搭售 ARM CPU 核心,成本又被拉上來了。

一些觀點認為,隨着 JAVA、Python 等跨平台的語言/工具越來越流行,通過虛擬機技術實現應用的跨平台遷移,還可以用仿真的方法用一種指令集模擬另一種指令集,寄希望於指令集架構重要性變低,進而重構 x86、ARM 的 “壟斷” 格局。

不過,這也存在另一些相反的事實,例如英特爾一直在持續地擴展其指令集,增加新指令(子集),如近年看到的 SGX、AVX512、AI 擴展指令集等,説明硬件指令的直接支持對性能、能效比至關重要。

又如,由於業界的各類基礎軟件和應用軟件,主要都是針對英特爾 CPU 優化的,即使同樣是 x86 的 AMD CPU,能流暢支持的軟件配置種類就少得多。所以,阿里的公有云平台只用英特爾的 CPU 產品,它們可以自如地支持各種老舊的 OS 類型、版本、配置。

從這個角度來看,RISC-V 進入以計算機為代表的通用平台,還有一段曠日持久的路程要走

03 統一指令集:中國算力芯片規模化的關鍵路徑

近年來,系統和平台廠商又開始研發計算芯片了:美國有蘋果公司、谷歌、亞馬遜、微軟,中國公司也很多。

所有自研的場景當中,雲廠自研芯片的模式是行得通的,因為企業盈利的基礎在於增值服務,不在硬件。雲廠商由於掌控全棧軟硬件,生態移植的困難也較小,且因為自身規模大,可以負擔芯片研發的費用。

不過,現階段多數企業自研還是用於內部,因此外部客户仍然需要獨立的芯片供應商。

眾多自研芯片的系統廠商當中,蘋果公司是一個非常成功的案例,基本實現了核心產品線處理器的全線自研——手機為 A 系列、平板和 PC 為 M 系列、手錶為 W 系列、耳機為 H 系列。

蘋果自研芯片矩陣,數據更新至 2025 年 9 月

“產品定價高” 可以作為評判蘋果自研成功與否的一個表面指標。

和公版的 ARM CPU 核相比,蘋果公司自研的 CPU 性能高、成本也高,但配合自研的系統軟件,整體達到優化的用户體驗,同時加上營銷體系的助力,形成 “高大上” 的形象,就可以賣出高價錢。

只不過,很多失敗的項目,只看到了蘋果公司 “自研芯片” 的表面指標,“自研芯片”,如果只是為了 “使用芯片”,或者只是聚焦在紙面參數上,而忽略掉軟件的差異化、生態能力提升,進而共同推動用户體驗的優化,未必有價值。

軟件定義一切,也包括 “成敗”。

無論 CPU 還是 GPGPU,都需要在軟件生態上,與現有成熟產品形成差異化,實現附加值提升,但這不等於一切都需要重構和創新,比如指令系統——指令系統越多,軟件生態方面就需要投入越多,“統一” 起來困難重重。

前面提過,軟件方面的投入比硬件研發的投入還要大,而軟件掉隊的負面現象,目前大量出現在當前的領域專用架構(DSA)和其它 xPU 研發領域。比如很多國產智算中心,投資規模很大,但受配套軟件不全等問題限制,實際利用率並不高,這其實就是軟件跟不上硬件 “步伐” 帶來的後遺症。

回想架構之爭的年代,諸神混戰,最後也只有少數幾個架構活了下來。

實際上,體系結構創新,未必一定要新架構,也可以在現有的指令系統框架內實現,RISC-V 恰好在這方面具備很好的支撐。

例如,國外 Tenstorrent 等企業基於 RISC-V 指令集,擴展支持 AI 的子指令集,進而開發了基於 RISC-V 的 AI 加速計算方案。又如,國內外不少大學和科研機構都在 RISC-V 上擴展了密碼學相關的子指令集,並在此基礎上實現了對後量子密碼的支持等等。

所以,我們呼籲:把 RISC-V 作為統一指令系統,所有 CPU/GPU/xPU 都基於 RISC-V 及其擴展來開發,避免重複勞動和研發資源的無謂浪費。

本文作者:深圳理工大學算力微電子學院院長、象帝先董事長唐志敏,來源:騰訊科技,原文標題:《中國算力芯片的 “新十年”》

風險提示及免責條款

市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。