--- title: "CerebrasIPO:深度綁定 OpenAI,以 “Fast Tokens” 重塑 AI 芯片市場預期" type: "News" locale: "zh-HK" url: "https://longbridge.com/zh-HK/news/286370662.md" description: "押注 “快 Token” 的晶圓芯片公司 Cerebras 正站在 IPO 窗口前:憑藉 21PB/s 片上帶寬實現 2000 tok/sec/user 的極致推理速度,拿下 OpenAI 750MW 算力大單,撬開 246 億美元訂單背書。但硬幣的另一面同樣刺眼——44GB SRAM 容量天花板、僅 150GB/s 的片外 I/O、高度依賴單一客户,以及 “快 Token 溢價能否長期覆蓋複雜系統成本” 的終極懸念,決定着這場豪賭的勝負。" datetime: "2026-05-14T09:00:58.000Z" locales: - [zh-CN](https://longbridge.com/zh-CN/news/286370662.md) - [en](https://longbridge.com/en/news/286370662.md) - [zh-HK](https://longbridge.com/zh-HK/news/286370662.md) --- # CerebrasIPO:深度綁定 OpenAI,以 “Fast Tokens” 重塑 AI 芯片市場預期 Cerebras 的故事突然變順了。幾年前,它還是一家用 “整片晶圓做芯片” 的激進 AI 硬件公司,技術足夠大膽,但商業化一直不夠確定;現在,快推理成為大模型廠商願意付溢價的方向,OpenAI 又簽下 750MW 推理算力合作,Cerebras 站到了 IPO 窗口前。 SemiAnalysis 分析師 Myron Xie 在 14 日發佈的一份研究報告把核心變化概括得很直接:**“過了某個智能閾值之後,開發者更偏好更快的 Token,而不是更聰明的 Token。”** 這句話解釋了 Cerebras 估值邏輯的轉向:它不一定要在所有 AI 算力場景裏擊敗 GPU,但只要 “高交互速度” 成為可收費產品,它的晶圓級架構就有了用武之地。 這也是 Cerebras 最迷人的地方。WSE-3 把 44GB SRAM、計算核心和片上互聯塞進整片晶圓,帶來 21PB/s 級別的內存帶寬,推理速度可以達到傳統 HBM 加速器難以觸及的區間。但同一套架構也帶來限制:**SRAM 容量不夠大,片外 I/O 只有 150GB/s,冷卻、供電、封裝都高度定製,服務超大模型和長上下文時會越來越吃力。** **OpenAI 是 Cerebras 的最大機會,也把風險集中到了一個客户身上。雙方協議對應 750MW 推理算力,OpenAI 還有額外 1.25GW 選項;Cerebras 披露的剩餘履約義務達到 246 億美元。**但這筆交易同時綁定了 10 億美元工作資本貸款、接近免費行權的認股權證,以及高強度數據中心交付壓力。IPO 投資人真正要問的,不是 “晶圓芯片酷不酷”,而是:快 Token 的溢價,能不能覆蓋 Cerebras 的結構性成本和單一客户風險。 ## Cerebras 押中的不是 “總吞吐”,而是 “交互速度” 過去 AI 推理硬件的主線,是每張 GPU、每個機櫃能吐出多少 Token。對雲廠商和模型廠商來説,總吞吐意味着單位成本,意味着能服務更多用户。 但用户行為正在把另一條曲線推到前台:tokens/sec/user,也就是單個用户拿到輸出的速度。 OpenAI、Anthropic 都在把同一模型拆成不同服務檔位:**fast、priority、standard、batch。**用户願不願意為更快響應付錢,已經不只是產品經理的猜測。Opus 4.6 fast 曾以約 6 倍價格換取 2.5 倍交互速度,後來速度優勢降到約 1.75 倍;即便如此,高速模式仍是開發者願意付費的 SKU。SemiAnalysis 自身 4 月 AI 支出一度年化達到 1000 萬美元,其中 80% 花在 Opus 4.6 fast 上。 這説明一個市場變化:當模型能力足夠可用,等待時間就會變成生產力瓶頸。對寫代碼、調用工具、連續迭代的 agentic workflow 來説,慢幾秒不是體驗問題,而是工作流被打斷。 Cerebras 的優勢正好在這裏。它不是靠更多 HBM 堆容量,而是靠片上 SRAM 極高帶寬,把低 batch、小併發、高交互速度的 decode 場景做得非常快。換句話説,GPU 像一輛能拉很多人的大巴,Cerebras 更像為了少數乘客高速直達而設計的跑車。 ## WSE-3 不是 “大號 GPU”,它是一整片晶圓 Cerebras 的核心產品 WSE,是把整片晶圓當成一顆芯片,而不是切割成幾十、上百顆獨立 die。 WSE-3 採用台積電 N5 工藝,由 12×7、共 84 個相同步進區域組成。每片晶圓上有約 97 萬個核心,其中 90 萬個啓用。晶圓面積的一半給 SRAM,另一半給計算核心。這個設計的關鍵,是計算和存儲都留在同一片硅上,儘量避免數據離開芯片、離開封裝。 參數很誇張: SRAM 容量:44GB SRAM 帶寬:21PB/s 對外 I/O:150GB/s 公開營銷口徑 FP16 算力:125PFLOPs 按 8:1 非結構化稀疏折算後的 dense FP16 算力:約 15.6PFLOPs 這組數字要分開看。21PB/s 內存帶寬是 Cerebras 最強的地方;15.6PFLOPs dense FP16 算力也不低,但如果按單位硅面積衡量,並不像宣傳口徑那麼驚人。125PFLOPs 來自稀疏假設,材料裏把這種算法調侃為 “Feldman’s Formula”,對應的是把 dense 算力乘以 8。 真正的分界線在內存類型。GPU、TPU、Trainium 這類主流 AI 加速器把模型權重和 KV Cache 放在 HBM 裏;Cerebras 把它們儘量放進 SRAM。SRAM 快、延遲低,但單位 bit 成本高,容量密度低。 44GB SRAM 放在單芯片世界裏很大。可和 HBM 比,它又不大。單個 HBM3E 12-Hi 堆棧就有 36GB;當前一顆高端 GPU 或 TPU 封裝常見 8 堆棧,對應 288GB,是 WSE-3 SRAM 容量的 6.5 倍。 這就是 Cerebras 的基本交換:用容量換速度。 ## 晶圓贏在低算術強度 decode,輸在大模型和長上下文 Cerebras 最適合的任務,是低算術強度、內存帶寬受限的 decode 階段。 大模型推理裏,很多 kernel 並不是缺算力,而是缺內存帶寬。GPU 的 Tensor Core 可能很強,但如果權重和 KV Cache 喂不上來,算力就會餓着。Cerebras 把大量 SRAM 鋪在晶圓上,數據離計算單元更近,帶寬足夠高,batch=1 這類低併發 decode 場景能跑出傳統 HBM 系統很難達到的交互速度。 材料中的理論對比很清楚:如果看一個 batch=1、算術強度約為 2 的 decode kernel,NVIDIA GPU 和 Groq LPU 理論上只能實現幾十到數百 TFLOPs 量級;Cerebras WSE-3 在理想條件下可以接近完整 15.625PFLOPs dense FP16 算力。 這就是 “快 Token” 的硬件基礎。 **但只要模型變大、上下文變長,44GB SRAM 就開始緊張。推理系統的內存要裝三類東西:** 模型權重; 併發請求所需 KV Cache; 長上下文帶來的更大 KV Cache。 agentic coding 這類工作負載尤其麻煩。樣本測算中,約 43.2 萬條請求、約 800 億 Token 顯示,典型 P50 輸入序列長度約為 96.3k Token,而不是 Cerebras 產品假設中的 64k;接近 50% 的請求超過 128k,這已經達到 Cerebras 公開端點目前支持的最大上下文窗口。 這意味着,如果未來模型服務走向 256k、1M 上下文,Cerebras 要麼壓縮 KV Cache,要麼上更多晶圓,要麼犧牲交互速度和經濟性。 ## 冷卻和 BOM 説明:這不是便宜算力 CS-3 系統不是把一顆芯片插進服務器那麼簡單。 每台 CS-3 包括一個 WSE-3 engine block、外圍計算和 I/O 模塊、兩個機械泵、12 個 3.3kW 電源模塊,以及液冷系統。單片 WSE-3 本身功耗約 25kW,放在 46,225 平方毫米晶圓上,平均熱流密度約 50W/cm²,還沒算熱點。 風冷卻不現實。普通 3D 均熱板如果放大到 21.5 厘米見方,會遇到毛細極限,工質回流跟不上。Cerebras 只能做定製液冷結構:冷板、晶圓、柔性連接器、PCB 組成四層 “三明治”,散熱歧管接在冷板背後。硅和 PCB 熱膨脹係數不同,傳統封裝會裂,所以連接、預壓、裝配工具都要定製。 數據中心側也被改變。GB200 NVL72 參考設計的設施側流量約 1.5 LPM/kW,而 WSE-3 在 25kW 下約 100 LPM,相當於 4 LPM/kW,接近 3 倍。這要求更大的泵、更粗的管、更大的 CDU 和更高流量的快接頭。CS-4 若能把機架級流量拉回 1.5—1.7 LPM/kW,才更接近標準化基礎設施。 成本同樣不輕。CS-3 加 KVSS CPU 節點的 BOM 估算,在去年四季度內存漲價前約 35 萬美元/機架;計入最新內存價格後約 45 萬美元/機架。KVSS 是雙路 AMD CPU 節點,配 6TB DDR5 RDIMM,用於 KV Cache offload。 有意思的是,最貴的不只是台積電 N5 晶圓。單片 N5 晶圓名義成本約 2 萬美元,但 Cerebras 還要為每批晶圓做額外上層金屬 mask,用來繞過缺陷 tile;Vicor 定製供電模塊也很貴,材料中估計其價值量接近台積電內容;冷卻、封裝、組裝大量自研,外圍還有 12 個 100GbE Xilinx FPGA 承擔類似 NIC 的角色,把 Cerebras 自有 I/O 轉換成以太網。 **所以 Cerebras 並不是 “便宜芯片替代 GPU”。它是在一個特定推理速度區間,用複雜系統換極致交互速度。** ## SRAM 擴展停滯,是 Cerebras 繞不過去的節點問題 Cerebras 最依賴 SRAM,但 SRAM scaling 正在失速。 三代 WSE 的 SRAM 容量變化很能説明問題: WSE-1,台積電 16nm,18GB SRAM; WSE-2,7nm,40GB SRAM,代際提升 2.2 倍; WSE-3,5nm,44GB SRAM,只提升約 10%。 同樣從 7nm 走到 5nm,邏輯晶體管數量增長約 50%,但 SRAM 容量幾乎沒怎麼動。往後更難。N3E 相對 N5 在 SRAM 上基本沒有縮小,N2 及以後也繼續受限。 **對 Cerebras 來説,這比對 GPU 廠商更致命。GPU 可以繼續疊 HBM、擴封裝、靠互聯池化內存;Groq 這類 SRAM 機器也可以用 hybrid bonding 在 Z 方向堆更多 SRAM tile。Cerebras 是整片晶圓,平面面積已經用滿。如果增加 SRAM 面積,就要犧牲計算面積。** CS-4 的路線也暴露了這一點:仍使用 N5 基礎的 WSE-3,但提高功耗、提升時鐘和計算持續能力,SRAM 容量不變。 可選方向是晶圓對晶圓混合鍵合,把 DRAM 晶圓或更多存儲疊到 WSE 上。Cerebras 確實在探索這種路徑。但晶圓級整體芯片的熱機械問題、bond wave 問題,都比常規 hybrid bonding 更難。它過去解決過很多不尋常問題,但下一步仍然是硬仗。 ## 最大硬傷是 I/O:晶圓很大,出口卻很窄 WSE-3 片外帶寬只有 150GB/s,也就是 1.2Tb/s。相對它的計算規模和片上帶寬,這個出口太小。 這個問題不是工程師沒意識到 I/O 重要,而是晶圓級架構自身的幾何約束。 WSE 由 84 個相同步進區域組成,每個 reticle 曝光圖案必須一致,邏輯、SRAM、佈線位置都一樣,才能讓跨劃片道互聯在晶圓上連續延伸。也就是説,不能只在邊緣 reticle 放 SerDes PHY,而中間 reticle 全做計算。每個 reticle 都必須長一樣。 如果要增加邊緣 I/O,就要在每個 reticle 裏都放 PHY。問題是,中間那些 PHY 沒有辦法連接外部世界,只會變成浪費的硅面積。更糟的是,高速 SerDes PHY 面積大、模擬電路不喜歡貼近數字邏輯,還要 guard region;放進晶圓內部,會在 2D mesh 裏打洞,增加繞線和延遲,削弱晶圓級互聯本來要解決的問題。 **材料裏給了一個直觀數字:WSE 當前片外帶寬約 0.17GB/s/mm 邊緣密度,NVIDIA 片外 I/O 密度約為其 130 倍。** **Cerebras 的解法是光互聯晶圓:通過混合鍵合把光子互聯晶圓疊到 WSE 上,讓數據沿 Z 軸進出,而不是從晶圓邊緣擠出去。合作方是 Ranovus。** 這條路很漂亮,也很難。光學器件對温度敏感,不能太熱也不能太冷;它還要貼着一片高功耗晶圓。光纖耦合在普通 CPO 裏都還沒完全工程化到輕鬆量產,更不用説放大到整片晶圓。 ## 大模型會迫使 Cerebras 用流水線,而這違背了 “快” 的初衷 如果模型裝不進一片 WSE,就只能跨多片晶圓切分。 但低 I/O 帶寬排除了很多常見並行方式。高帶寬 collective 通信不現實,大張量頻繁進出晶圓也不現實。剩下最可行的是 pipeline parallelism:按層把模型切到多片 WSE 上,每片晶圓保留對應層權重,只在階段之間傳激活值。 Cerebras 服務 Llama 3 70B 時,就是把模型切到 4 片 WSE-3 上,只在晶圓之間傳激活,通信量能壓在 1.2Tb/s I/O 能力範圍內。 **但流水線會帶來三個問題。** 第一,pipeline bubble。4 個階段至少需要約 4 個 in-flight microbatch 保持忙碌;16 個階段就需要約 16 個。階段越多,調度越難。 第二,每個 in-flight microbatch 都有自己的 KV Cache,而 KV Cache 也要和權重一起擠在 44GB SRAM 裏。哪怕新模型用更強 KV 壓縮,KV 在片上片下搬運仍會以毫秒級增加 TTFT 和 TPOT 壓力。 第三,晶圓數量增加,激活在晶圓間傳輸的固定延遲也線性增加。模型越大,越偏離 Cerebras 最理想的形態:小 batch、低延遲、單片或少數晶圓高速 decode。 公開產品線也透露了邊界。Cerebras Inference Cloud 目前最大生產模型是 GPT-OSS,120B 總參數;更大的 preview 模型 GLM 4.7 也到 355B 為止。Llama 70B 和 405B 曾經受歡迎,後來被下線,可能與服務經濟性有關。DeepSeek V3 和 Kimi K2 這兩個 2025 年熱門開源前沿模型,也沒有出現在 Cerebras 公共雲上。 不過這不是絕對死局。DeepSeek V4 Pro 這類模型如果採用更強 KV Cache 壓縮,在足夠併發下,1T+ 模型也可能重新變得可服務。問題在於,能不能同時保住 Cerebras 最值錢的東西:速度。 ## OpenAI 把 Cerebras 拉進主牌桌,也把風險集中到自己身上 OpenAI 在 Cerebras 未來裏不是普通客户。 **2025 年 12 月,雙方簽署 Master Relationship Agreement。OpenAI 承諾購買 750MW AI 推理算力,2026—2028 年分批部署,每批期限 3—4 年,可延長到 5 年。OpenAI 還有選擇權,可額外購買 1.25GW,把總量提高到 2GW。** S-1 披露,截至 2025 年 12 月 31 日,Cerebras 剩餘履約義務為 246 億美元。更重要的是,數據中心租金、電力、租賃改良、安全等 pass-through 成本由 OpenAI 報銷,並按總額確認為收入。 OpenAI 還提供 10 億美元工作資本貸款,年利率 6%。如果 Cerebras 通過交付算力或硬件償還,對應利息可豁免。償還從初始 250MW 最後一批交付後開始,三年等額攤還。如果 MRA 因 OpenAI 重大未補救違約以外原因終止,Cerebras 可能要立即償還全部未償本金和應計利息。OpenAI 還可以指示託管銀行停止按 Cerebras 指令使用資金,轉為直接控制資金處置。 股權綁定也很深。Cerebras 向 OpenAI 發行 33,445,026 股 Class N 無投票權普通股認股權證,行權價 0.00001 美元,幾乎等同免費。其中一部分因 10 億美元貸款已立即歸屬,另一部分和 400 億美元市值或付款門檻掛鈎,剩餘部分和算力交付、額外 2GW 擴張選項相關。完全稀釋後,OpenAI 最多可持有 Cerebras 約 12% 股份,不包括後續新發行。 按 ASC 505-50,給客户的權益激勵會在商業協議期內作為 contra-revenue 確認。以 S-1 中 82.02 美元/股估值粗算,全部認股權證理論上對應約 27.4 億美元 contra-revenue,約為 OpenAI 預期收入的 10%。 這是一筆能改變命運的訂單,也是一個把公司命運押到單一對手方上的結構。 ## GPT-5.3-Codex-Spark 證明了速度價值,但也暴露模型尺寸問題 OpenAI 發佈 GPT-5.3-Codex-Spark 後,Cerebras 的敍事更完整了。這個模型使用 gpt-oss-120B 架構,由真正的 GPT-5.3-Codex 蒸餾而來,在 Cerebras 上最高可跑到 2000 tok/sec/user。 關鍵在 “120B”。它不是完整 GPT-5.3-Codex,而是小得多的蒸餾模型。材料中明確寫到,它比完整模型小 10 倍以上。 這對 Cerebras 既是好消息,也是限制。 好消息是,120B 級別模型如果能力足夠強,再疊加極快輸出速度,確實可能成為高價值產品。開發者已經證明過,願意為了更快 Token 放棄部分前沿智能。 限制在於,OpenAI 如果要在 Cerebras 上跑 1T 參數以上、1M 上下文窗口、面向真實 agentic workload 的大模型,就要接受明顯成本取捨,並且實際交互速度可能低於 1000 tok/sec。能不能賣出足夠高的 Token 溢價,是商業模型成立的關鍵。 材料給出的路徑假設很激進:小模型能力繼續提升,約一年內 120B 形態可能接近 GPT-5.5 級別智能。如果這成立,Cerebras 就不需要承載最前沿、最大參數模型,也能賣出高價快 Token。OpenAI 鎖定的 750MW 只是第一步,真正的上行空間來自是否行使額外 1.25GW 選項,甚至繼續擴大采購。 但這個上行條件很窄:Cerebras 必須證明,能在自己硬件適合的模型尺寸裏,持續裝下足夠聰明、足夠賺錢的模型。 ## IPO 的核心問題:快 Token 溢價能不能長期覆蓋硬件取捨 Cerebras 不是另一個 GPU 故事。它不是在訓練、大模型通用推理、長上下文吞吐上全面替代 NVIDIA,而是在一個更窄但可能很賺錢的區間裏押重注:高交互速度、低 batch、用户願意付溢價的推理。 晶圓級架構給了它極強的帶寬和極快 decode,也讓它背上了 SRAM 容量、片外 I/O、冷卻、BOM、數據中心適配這些硬約束。OpenAI 訂單解決了需求問題,卻沒有消除交付風險和客户集中度。 所以 Cerebras 的 IPO 定價,不該只看 246 億美元 backlog,也不該只看 2000 tok/sec/user 這種漂亮速度。更重要的是三個問題: OpenAI 需要的快 Token,長期是不是 120B—355B 這類模型就夠; 用户願意為速度付出的溢價,能不能覆蓋 Cerebras 更復雜的系統成本; 750MW 到 2028 年能否按節奏落地,且不被冷卻、電力、供應鏈和數據中心能力拖住。 **如果答案偏向 “是”,Cerebras 會成為快推理時代最有辨識度的 AI 硬件公司之一。如果答案偏向 “否”,整片晶圓帶來的速度優勢,可能會被大模型和長上下文的內存需求一點點吃掉。** ### 相關股票 - [159995.CN](https://longbridge.com/zh-HK/quote/159995.CN.md) - [588780.CN](https://longbridge.com/zh-HK/quote/588780.CN.md) - [159325.CN](https://longbridge.com/zh-HK/quote/159325.CN.md) - [SOXL.US](https://longbridge.com/zh-HK/quote/SOXL.US.md) - [512760.CN](https://longbridge.com/zh-HK/quote/512760.CN.md) - [512720.CN](https://longbridge.com/zh-HK/quote/512720.CN.md) - [SOXX.US](https://longbridge.com/zh-HK/quote/SOXX.US.md) - [159998.CN](https://longbridge.com/zh-HK/quote/159998.CN.md) - [CBRS.US](https://longbridge.com/zh-HK/quote/CBRS.US.md) - [OpenAI.NA](https://longbridge.com/zh-HK/quote/OpenAI.NA.md) - [NVDA.US](https://longbridge.com/zh-HK/quote/NVDA.US.md) - [AMD.US](https://longbridge.com/zh-HK/quote/AMD.US.md) - [TSM.US](https://longbridge.com/zh-HK/quote/TSM.US.md) - [VICR.US](https://longbridge.com/zh-HK/quote/VICR.US.md) - [RAN.US](https://longbridge.com/zh-HK/quote/RAN.US.md) - [NVD.DE](https://longbridge.com/zh-HK/quote/NVD.DE.md) ## 相關資訊與研究 - [百度丨李彥宏:續投入加強芯雲模體全面進化](https://longbridge.com/zh-HK/news/286191164.md) - [百度秒噠 3.0 發布 一句話即可生成生產級應用](https://longbridge.com/zh-HK/news/286341316.md) - [英偉達強敵|Cerebras 週四交易 最高集 63.8 億美元 今年以來全球最大 IPO](https://longbridge.com/zh-HK/news/286391606.md) - [AI 晶片新星 Cerebras IPO 倒數 估值衝 564 億美元](https://longbridge.com/zh-HK/news/286335836.md) - [崇越卡位「四維樞紐」重塑 AI 時代戰略價值](https://longbridge.com/zh-HK/news/286175953.md)