---
title: "CerebrasIPO：深度綁定 OpenAI，以 “Fast Tokens” 重塑 AI 芯片市場預期"
type: "News"
locale: "zh-HK"
url: "https://longbridge.com/zh-HK/news/286370662.md"
description: "押注 “快 Token” 的晶圓芯片公司 Cerebras 正站在 IPO 窗口前：憑藉 21PB/s 片上帶寬實現 2000 tok/sec/user 的極致推理速度，拿下 OpenAI 750MW 算力大單，撬開 246 億美元訂單背書。但硬幣的另一面同樣刺眼——44GB SRAM 容量天花板、僅 150GB/s 的片外 I/O、高度依賴單一客户，以及 “快 Token 溢價能否長期覆蓋複雜系統成本” 的終極懸念，決定着這場豪賭的勝負。"
datetime: "2026-05-14T09:00:58.000Z"
locales:
  - [zh-CN](https://longbridge.com/zh-CN/news/286370662.md)
  - [en](https://longbridge.com/en/news/286370662.md)
  - [zh-HK](https://longbridge.com/zh-HK/news/286370662.md)
---

# CerebrasIPO：深度綁定 OpenAI，以 “Fast Tokens” 重塑 AI 芯片市場預期

Cerebras 的故事突然變順了。幾年前，它還是一家用 “整片晶圓做芯片” 的激進 AI 硬件公司，技術足夠大膽，但商業化一直不夠確定；現在，快推理成為大模型廠商願意付溢價的方向，OpenAI 又簽下 750MW 推理算力合作，Cerebras 站到了 IPO 窗口前。

SemiAnalysis 分析師 Myron Xie 在 14 日發佈的一份研究報告把核心變化概括得很直接：**“過了某個智能閾值之後，開發者更偏好更快的 Token，而不是更聰明的 Token。”** 這句話解釋了 Cerebras 估值邏輯的轉向：它不一定要在所有 AI 算力場景裏擊敗 GPU，但只要 “高交互速度” 成為可收費產品，它的晶圓級架構就有了用武之地。

這也是 Cerebras 最迷人的地方。WSE-3 把 44GB SRAM、計算核心和片上互聯塞進整片晶圓，帶來 21PB/s 級別的內存帶寬，推理速度可以達到傳統 HBM 加速器難以觸及的區間。但同一套架構也帶來限制：**SRAM 容量不夠大，片外 I/O 只有 150GB/s，冷卻、供電、封裝都高度定製，服務超大模型和長上下文時會越來越吃力。**

**OpenAI 是 Cerebras 的最大機會，也把風險集中到了一個客户身上。雙方協議對應 750MW 推理算力，OpenAI 還有額外 1.25GW 選項；Cerebras 披露的剩餘履約義務達到 246 億美元。**但這筆交易同時綁定了 10 億美元工作資本貸款、接近免費行權的認股權證，以及高強度數據中心交付壓力。IPO 投資人真正要問的，不是 “晶圓芯片酷不酷”，而是：快 Token 的溢價，能不能覆蓋 Cerebras 的結構性成本和單一客户風險。

## Cerebras 押中的不是 “總吞吐”，而是 “交互速度”

過去 AI 推理硬件的主線，是每張 GPU、每個機櫃能吐出多少 Token。對雲廠商和模型廠商來説，總吞吐意味着單位成本，意味着能服務更多用户。

但用户行為正在把另一條曲線推到前台：tokens/sec/user，也就是單個用户拿到輸出的速度。

OpenAI、Anthropic 都在把同一模型拆成不同服務檔位：**fast、priority、standard、batch。**用户願不願意為更快響應付錢，已經不只是產品經理的猜測。Opus 4.6 fast 曾以約 6 倍價格換取 2.5 倍交互速度，後來速度優勢降到約 1.75 倍；即便如此，高速模式仍是開發者願意付費的 SKU。SemiAnalysis 自身 4 月 AI 支出一度年化達到 1000 萬美元，其中 80% 花在 Opus 4.6 fast 上。

這説明一個市場變化：當模型能力足夠可用，等待時間就會變成生產力瓶頸。對寫代碼、調用工具、連續迭代的 agentic workflow 來説，慢幾秒不是體驗問題，而是工作流被打斷。

Cerebras 的優勢正好在這裏。它不是靠更多 HBM 堆容量，而是靠片上 SRAM 極高帶寬，把低 batch、小併發、高交互速度的 decode 場景做得非常快。換句話説，GPU 像一輛能拉很多人的大巴，Cerebras 更像為了少數乘客高速直達而設計的跑車。

## WSE-3 不是 “大號 GPU”，它是一整片晶圓

Cerebras 的核心產品 WSE，是把整片晶圓當成一顆芯片，而不是切割成幾十、上百顆獨立 die。

WSE-3 採用台積電 N5 工藝，由 12×7、共 84 個相同步進區域組成。每片晶圓上有約 97 萬個核心，其中 90 萬個啓用。晶圓面積的一半給 SRAM，另一半給計算核心。這個設計的關鍵，是計算和存儲都留在同一片硅上，儘量避免數據離開芯片、離開封裝。

參數很誇張：

SRAM 容量：44GB

SRAM 帶寬：21PB/s

對外 I/O：150GB/s

公開營銷口徑 FP16 算力：125PFLOPs

按 8:1 非結構化稀疏折算後的 dense FP16 算力：約 15.6PFLOPs

這組數字要分開看。21PB/s 內存帶寬是 Cerebras 最強的地方；15.6PFLOPs dense FP16 算力也不低，但如果按單位硅面積衡量，並不像宣傳口徑那麼驚人。125PFLOPs 來自稀疏假設，材料裏把這種算法調侃為 “Feldman’s Formula”，對應的是把 dense 算力乘以 8。

真正的分界線在內存類型。GPU、TPU、Trainium 這類主流 AI 加速器把模型權重和 KV Cache 放在 HBM 裏；Cerebras 把它們儘量放進 SRAM。SRAM 快、延遲低，但單位 bit 成本高，容量密度低。

44GB SRAM 放在單芯片世界裏很大。可和 HBM 比，它又不大。單個 HBM3E 12-Hi 堆棧就有 36GB；當前一顆高端 GPU 或 TPU 封裝常見 8 堆棧，對應 288GB，是 WSE-3 SRAM 容量的 6.5 倍。

這就是 Cerebras 的基本交換：用容量換速度。

## 晶圓贏在低算術強度 decode，輸在大模型和長上下文

Cerebras 最適合的任務，是低算術強度、內存帶寬受限的 decode 階段。

大模型推理裏，很多 kernel 並不是缺算力，而是缺內存帶寬。GPU 的 Tensor Core 可能很強，但如果權重和 KV Cache 喂不上來，算力就會餓着。Cerebras 把大量 SRAM 鋪在晶圓上，數據離計算單元更近，帶寬足夠高，batch=1 這類低併發 decode 場景能跑出傳統 HBM 系統很難達到的交互速度。

材料中的理論對比很清楚：如果看一個 batch=1、算術強度約為 2 的 decode kernel，NVIDIA GPU 和 Groq LPU 理論上只能實現幾十到數百 TFLOPs 量級；Cerebras WSE-3 在理想條件下可以接近完整 15.625PFLOPs dense FP16 算力。

這就是 “快 Token” 的硬件基礎。

**但只要模型變大、上下文變長，44GB SRAM 就開始緊張。推理系統的內存要裝三類東西：**

模型權重；

併發請求所需 KV Cache；

長上下文帶來的更大 KV Cache。

agentic coding 這類工作負載尤其麻煩。樣本測算中，約 43.2 萬條請求、約 800 億 Token 顯示，典型 P50 輸入序列長度約為 96.3k Token，而不是 Cerebras 產品假設中的 64k；接近 50% 的請求超過 128k，這已經達到 Cerebras 公開端點目前支持的最大上下文窗口。

這意味着，如果未來模型服務走向 256k、1M 上下文，Cerebras 要麼壓縮 KV Cache，要麼上更多晶圓，要麼犧牲交互速度和經濟性。

## 冷卻和 BOM 説明：這不是便宜算力

CS-3 系統不是把一顆芯片插進服務器那麼簡單。

每台 CS-3 包括一個 WSE-3 engine block、外圍計算和 I/O 模塊、兩個機械泵、12 個 3.3kW 電源模塊，以及液冷系統。單片 WSE-3 本身功耗約 25kW，放在 46,225 平方毫米晶圓上，平均熱流密度約 50W/cm²，還沒算熱點。

風冷卻不現實。普通 3D 均熱板如果放大到 21.5 厘米見方，會遇到毛細極限，工質回流跟不上。Cerebras 只能做定製液冷結構：冷板、晶圓、柔性連接器、PCB 組成四層 “三明治”，散熱歧管接在冷板背後。硅和 PCB 熱膨脹係數不同，傳統封裝會裂，所以連接、預壓、裝配工具都要定製。

數據中心側也被改變。GB200 NVL72 參考設計的設施側流量約 1.5 LPM/kW，而 WSE-3 在 25kW 下約 100 LPM，相當於 4 LPM/kW，接近 3 倍。這要求更大的泵、更粗的管、更大的 CDU 和更高流量的快接頭。CS-4 若能把機架級流量拉回 1.5—1.7 LPM/kW，才更接近標準化基礎設施。

成本同樣不輕。CS-3 加 KVSS CPU 節點的 BOM 估算，在去年四季度內存漲價前約 35 萬美元/機架；計入最新內存價格後約 45 萬美元/機架。KVSS 是雙路 AMD CPU 節點，配 6TB DDR5 RDIMM，用於 KV Cache offload。

有意思的是，最貴的不只是台積電 N5 晶圓。單片 N5 晶圓名義成本約 2 萬美元，但 Cerebras 還要為每批晶圓做額外上層金屬 mask，用來繞過缺陷 tile；Vicor 定製供電模塊也很貴，材料中估計其價值量接近台積電內容；冷卻、封裝、組裝大量自研，外圍還有 12 個 100GbE Xilinx FPGA 承擔類似 NIC 的角色，把 Cerebras 自有 I/O 轉換成以太網。

**所以 Cerebras 並不是 “便宜芯片替代 GPU”。它是在一個特定推理速度區間，用複雜系統換極致交互速度。**

## SRAM 擴展停滯，是 Cerebras 繞不過去的節點問題

Cerebras 最依賴 SRAM，但 SRAM scaling 正在失速。

三代 WSE 的 SRAM 容量變化很能説明問題：

WSE-1，台積電 16nm，18GB SRAM；

WSE-2，7nm，40GB SRAM，代際提升 2.2 倍；

WSE-3，5nm，44GB SRAM，只提升約 10%。

同樣從 7nm 走到 5nm，邏輯晶體管數量增長約 50%，但 SRAM 容量幾乎沒怎麼動。往後更難。N3E 相對 N5 在 SRAM 上基本沒有縮小，N2 及以後也繼續受限。

**對 Cerebras 來説，這比對 GPU 廠商更致命。GPU 可以繼續疊 HBM、擴封裝、靠互聯池化內存；Groq 這類 SRAM 機器也可以用 hybrid bonding 在 Z 方向堆更多 SRAM tile。Cerebras 是整片晶圓，平面面積已經用滿。如果增加 SRAM 面積，就要犧牲計算面積。**

CS-4 的路線也暴露了這一點：仍使用 N5 基礎的 WSE-3，但提高功耗、提升時鐘和計算持續能力，SRAM 容量不變。

可選方向是晶圓對晶圓混合鍵合，把 DRAM 晶圓或更多存儲疊到 WSE 上。Cerebras 確實在探索這種路徑。但晶圓級整體芯片的熱機械問題、bond wave 問題，都比常規 hybrid bonding 更難。它過去解決過很多不尋常問題，但下一步仍然是硬仗。

## 最大硬傷是 I/O：晶圓很大，出口卻很窄

WSE-3 片外帶寬只有 150GB/s，也就是 1.2Tb/s。相對它的計算規模和片上帶寬，這個出口太小。

這個問題不是工程師沒意識到 I/O 重要，而是晶圓級架構自身的幾何約束。

WSE 由 84 個相同步進區域組成，每個 reticle 曝光圖案必須一致，邏輯、SRAM、佈線位置都一樣，才能讓跨劃片道互聯在晶圓上連續延伸。也就是説，不能只在邊緣 reticle 放 SerDes PHY，而中間 reticle 全做計算。每個 reticle 都必須長一樣。

如果要增加邊緣 I/O，就要在每個 reticle 裏都放 PHY。問題是，中間那些 PHY 沒有辦法連接外部世界，只會變成浪費的硅面積。更糟的是，高速 SerDes PHY 面積大、模擬電路不喜歡貼近數字邏輯，還要 guard region；放進晶圓內部，會在 2D mesh 裏打洞，增加繞線和延遲，削弱晶圓級互聯本來要解決的問題。

**材料裏給了一個直觀數字：WSE 當前片外帶寬約 0.17GB/s/mm 邊緣密度，NVIDIA 片外 I/O 密度約為其 130 倍。**

**Cerebras 的解法是光互聯晶圓：通過混合鍵合把光子互聯晶圓疊到 WSE 上，讓數據沿 Z 軸進出，而不是從晶圓邊緣擠出去。合作方是 Ranovus。**

這條路很漂亮，也很難。光學器件對温度敏感，不能太熱也不能太冷；它還要貼着一片高功耗晶圓。光纖耦合在普通 CPO 裏都還沒完全工程化到輕鬆量產，更不用説放大到整片晶圓。

## 大模型會迫使 Cerebras 用流水線，而這違背了 “快” 的初衷

如果模型裝不進一片 WSE，就只能跨多片晶圓切分。

但低 I/O 帶寬排除了很多常見並行方式。高帶寬 collective 通信不現實，大張量頻繁進出晶圓也不現實。剩下最可行的是 pipeline parallelism：按層把模型切到多片 WSE 上，每片晶圓保留對應層權重，只在階段之間傳激活值。

Cerebras 服務 Llama 3 70B 時，就是把模型切到 4 片 WSE-3 上，只在晶圓之間傳激活，通信量能壓在 1.2Tb/s I/O 能力範圍內。

**但流水線會帶來三個問題。**

第一，pipeline bubble。4 個階段至少需要約 4 個 in-flight microbatch 保持忙碌；16 個階段就需要約 16 個。階段越多，調度越難。

第二，每個 in-flight microbatch 都有自己的 KV Cache，而 KV Cache 也要和權重一起擠在 44GB SRAM 裏。哪怕新模型用更強 KV 壓縮，KV 在片上片下搬運仍會以毫秒級增加 TTFT 和 TPOT 壓力。

第三，晶圓數量增加，激活在晶圓間傳輸的固定延遲也線性增加。模型越大，越偏離 Cerebras 最理想的形態：小 batch、低延遲、單片或少數晶圓高速 decode。

公開產品線也透露了邊界。Cerebras Inference Cloud 目前最大生產模型是 GPT-OSS，120B 總參數；更大的 preview 模型 GLM 4.7 也到 355B 為止。Llama 70B 和 405B 曾經受歡迎，後來被下線，可能與服務經濟性有關。DeepSeek V3 和 Kimi K2 這兩個 2025 年熱門開源前沿模型，也沒有出現在 Cerebras 公共雲上。

不過這不是絕對死局。DeepSeek V4 Pro 這類模型如果採用更強 KV Cache 壓縮，在足夠併發下，1T+ 模型也可能重新變得可服務。問題在於，能不能同時保住 Cerebras 最值錢的東西：速度。

## OpenAI 把 Cerebras 拉進主牌桌，也把風險集中到自己身上

OpenAI 在 Cerebras 未來裏不是普通客户。

**2025 年 12 月，雙方簽署 Master Relationship Agreement。OpenAI 承諾購買 750MW AI 推理算力，2026—2028 年分批部署，每批期限 3—4 年，可延長到 5 年。OpenAI 還有選擇權，可額外購買 1.25GW，把總量提高到 2GW。**

S-1 披露，截至 2025 年 12 月 31 日，Cerebras 剩餘履約義務為 246 億美元。更重要的是，數據中心租金、電力、租賃改良、安全等 pass-through 成本由 OpenAI 報銷，並按總額確認為收入。

OpenAI 還提供 10 億美元工作資本貸款，年利率 6%。如果 Cerebras 通過交付算力或硬件償還，對應利息可豁免。償還從初始 250MW 最後一批交付後開始，三年等額攤還。如果 MRA 因 OpenAI 重大未補救違約以外原因終止，Cerebras 可能要立即償還全部未償本金和應計利息。OpenAI 還可以指示託管銀行停止按 Cerebras 指令使用資金，轉為直接控制資金處置。

股權綁定也很深。Cerebras 向 OpenAI 發行 33,445,026 股 Class N 無投票權普通股認股權證，行權價 0.00001 美元，幾乎等同免費。其中一部分因 10 億美元貸款已立即歸屬，另一部分和 400 億美元市值或付款門檻掛鈎，剩餘部分和算力交付、額外 2GW 擴張選項相關。完全稀釋後，OpenAI 最多可持有 Cerebras 約 12% 股份，不包括後續新發行。

按 ASC 505-50，給客户的權益激勵會在商業協議期內作為 contra-revenue 確認。以 S-1 中 82.02 美元/股估值粗算，全部認股權證理論上對應約 27.4 億美元 contra-revenue，約為 OpenAI 預期收入的 10%。

這是一筆能改變命運的訂單，也是一個把公司命運押到單一對手方上的結構。

## GPT-5.3-Codex-Spark 證明了速度價值，但也暴露模型尺寸問題

OpenAI 發佈 GPT-5.3-Codex-Spark 後，Cerebras 的敍事更完整了。這個模型使用 gpt-oss-120B 架構，由真正的 GPT-5.3-Codex 蒸餾而來，在 Cerebras 上最高可跑到 2000 tok/sec/user。

關鍵在 “120B”。它不是完整 GPT-5.3-Codex，而是小得多的蒸餾模型。材料中明確寫到，它比完整模型小 10 倍以上。

這對 Cerebras 既是好消息，也是限制。

好消息是，120B 級別模型如果能力足夠強，再疊加極快輸出速度，確實可能成為高價值產品。開發者已經證明過，願意為了更快 Token 放棄部分前沿智能。

限制在於，OpenAI 如果要在 Cerebras 上跑 1T 參數以上、1M 上下文窗口、面向真實 agentic workload 的大模型，就要接受明顯成本取捨，並且實際交互速度可能低於 1000 tok/sec。能不能賣出足夠高的 Token 溢價，是商業模型成立的關鍵。

材料給出的路徑假設很激進：小模型能力繼續提升，約一年內 120B 形態可能接近 GPT-5.5 級別智能。如果這成立，Cerebras 就不需要承載最前沿、最大參數模型，也能賣出高價快 Token。OpenAI 鎖定的 750MW 只是第一步，真正的上行空間來自是否行使額外 1.25GW 選項，甚至繼續擴大采購。

但這個上行條件很窄：Cerebras 必須證明，能在自己硬件適合的模型尺寸裏，持續裝下足夠聰明、足夠賺錢的模型。

## IPO 的核心問題：快 Token 溢價能不能長期覆蓋硬件取捨

Cerebras 不是另一個 GPU 故事。它不是在訓練、大模型通用推理、長上下文吞吐上全面替代 NVIDIA，而是在一個更窄但可能很賺錢的區間裏押重注：高交互速度、低 batch、用户願意付溢價的推理。

晶圓級架構給了它極強的帶寬和極快 decode，也讓它背上了 SRAM 容量、片外 I/O、冷卻、BOM、數據中心適配這些硬約束。OpenAI 訂單解決了需求問題，卻沒有消除交付風險和客户集中度。

所以 Cerebras 的 IPO 定價，不該只看 246 億美元 backlog，也不該只看 2000 tok/sec/user 這種漂亮速度。更重要的是三個問題：

OpenAI 需要的快 Token，長期是不是 120B—355B 這類模型就夠；

用户願意為速度付出的溢價，能不能覆蓋 Cerebras 更復雜的系統成本；

750MW 到 2028 年能否按節奏落地，且不被冷卻、電力、供應鏈和數據中心能力拖住。

**如果答案偏向 “是”，Cerebras 會成為快推理時代最有辨識度的 AI 硬件公司之一。如果答案偏向 “否”，整片晶圓帶來的速度優勢，可能會被大模型和長上下文的內存需求一點點吃掉。**

### 相關股票

- [159995.CN](https://longbridge.com/zh-HK/quote/159995.CN.md)
- [588780.CN](https://longbridge.com/zh-HK/quote/588780.CN.md)
- [159325.CN](https://longbridge.com/zh-HK/quote/159325.CN.md)
- [SOXL.US](https://longbridge.com/zh-HK/quote/SOXL.US.md)
- [512760.CN](https://longbridge.com/zh-HK/quote/512760.CN.md)
- [512720.CN](https://longbridge.com/zh-HK/quote/512720.CN.md)
- [SOXX.US](https://longbridge.com/zh-HK/quote/SOXX.US.md)
- [159998.CN](https://longbridge.com/zh-HK/quote/159998.CN.md)
- [CBRS.US](https://longbridge.com/zh-HK/quote/CBRS.US.md)
- [OpenAI.NA](https://longbridge.com/zh-HK/quote/OpenAI.NA.md)
- [NVDA.US](https://longbridge.com/zh-HK/quote/NVDA.US.md)
- [AMD.US](https://longbridge.com/zh-HK/quote/AMD.US.md)
- [TSM.US](https://longbridge.com/zh-HK/quote/TSM.US.md)
- [VICR.US](https://longbridge.com/zh-HK/quote/VICR.US.md)
- [RAN.US](https://longbridge.com/zh-HK/quote/RAN.US.md)
- [NVD.DE](https://longbridge.com/zh-HK/quote/NVD.DE.md)

## 相關資訊與研究

- [百度丨李彥宏：續投入加強芯雲模體全面進化](https://longbridge.com/zh-HK/news/286191164.md)
- [百度秒噠 3.0 發布 一句話即可生成生產級應用](https://longbridge.com/zh-HK/news/286341316.md)
- [英偉達強敵｜Cerebras 週四交易 最高集 63.8 億美元 今年以來全球最大 IPO](https://longbridge.com/zh-HK/news/286391606.md)
- [AI 晶片新星 Cerebras IPO 倒數  估值衝 564 億美元](https://longbridge.com/zh-HK/news/286335836.md)
- [崇越卡位「四維樞紐」重塑 AI 時代戰略價值](https://longbridge.com/zh-HK/news/286175953.md)