--- title: "CerebrasIPO:深度绑定 OpenAI,以 “Fast Tokens” 重塑 AI 芯片市场预期" type: "News" locale: "zh-CN" url: "https://longbridge.com/zh-CN/news/286370662.md" description: "押注 “快 Token” 的晶圆芯片公司 Cerebras 正站在 IPO 窗口前:凭借 21PB/s 片上带宽实现 2000 tok/sec/user 的极致推理速度,拿下 OpenAI 750MW 算力大单,撬开 246 亿美元订单背书。但硬币的另一面同样刺眼——44GB SRAM 容量天花板、仅 150GB/s 的片外 I/O、高度依赖单一客户,以及 “快 Token 溢价能否长期覆盖复杂系统成本” 的终极悬念,决定着这场豪赌的胜负。" datetime: "2026-05-14T09:00:58.000Z" locales: - [zh-CN](https://longbridge.com/zh-CN/news/286370662.md) - [en](https://longbridge.com/en/news/286370662.md) - [zh-HK](https://longbridge.com/zh-HK/news/286370662.md) --- # CerebrasIPO:深度绑定 OpenAI,以 “Fast Tokens” 重塑 AI 芯片市场预期 Cerebras 的故事突然变顺了。几年前,它还是一家用 “整片晶圆做芯片” 的激进 AI 硬件公司,技术足够大胆,但商业化一直不够确定;现在,快推理成为大模型厂商愿意付溢价的方向,OpenAI 又签下 750MW 推理算力合作,Cerebras 站到了 IPO 窗口前。 SemiAnalysis 分析师 Myron Xie 在 14 日发布的一份研究报告把核心变化概括得很直接:**“过了某个智能阈值之后,开发者更偏好更快的 Token,而不是更聪明的 Token。”** 这句话解释了 Cerebras 估值逻辑的转向:它不一定要在所有 AI 算力场景里击败 GPU,但只要 “高交互速度” 成为可收费产品,它的晶圆级架构就有了用武之地。 这也是 Cerebras 最迷人的地方。WSE-3 把 44GB SRAM、计算核心和片上互联塞进整片晶圆,带来 21PB/s 级别的内存带宽,推理速度可以达到传统 HBM 加速器难以触及的区间。但同一套架构也带来限制:**SRAM 容量不够大,片外 I/O 只有 150GB/s,冷却、供电、封装都高度定制,服务超大模型和长上下文时会越来越吃力。** **OpenAI 是 Cerebras 的最大机会,也把风险集中到了一个客户身上。双方协议对应 750MW 推理算力,OpenAI 还有额外 1.25GW 选项;Cerebras 披露的剩余履约义务达到 246 亿美元。**但这笔交易同时绑定了 10 亿美元工作资本贷款、接近免费行权的认股权证,以及高强度数据中心交付压力。IPO 投资人真正要问的,不是 “晶圆芯片酷不酷”,而是:快 Token 的溢价,能不能覆盖 Cerebras 的结构性成本和单一客户风险。 ## Cerebras 押中的不是 “总吞吐”,而是 “交互速度” 过去 AI 推理硬件的主线,是每张 GPU、每个机柜能吐出多少 Token。对云厂商和模型厂商来说,总吞吐意味着单位成本,意味着能服务更多用户。 但用户行为正在把另一条曲线推到前台:tokens/sec/user,也就是单个用户拿到输出的速度。 OpenAI、Anthropic 都在把同一模型拆成不同服务档位:**fast、priority、standard、batch。**用户愿不愿意为更快响应付钱,已经不只是产品经理的猜测。Opus 4.6 fast 曾以约 6 倍价格换取 2.5 倍交互速度,后来速度优势降到约 1.75 倍;即便如此,高速模式仍是开发者愿意付费的 SKU。SemiAnalysis 自身 4 月 AI 支出一度年化达到 1000 万美元,其中 80% 花在 Opus 4.6 fast 上。 这说明一个市场变化:当模型能力足够可用,等待时间就会变成生产力瓶颈。对写代码、调用工具、连续迭代的 agentic workflow 来说,慢几秒不是体验问题,而是工作流被打断。 Cerebras 的优势正好在这里。它不是靠更多 HBM 堆容量,而是靠片上 SRAM 极高带宽,把低 batch、小并发、高交互速度的 decode 场景做得非常快。换句话说,GPU 像一辆能拉很多人的大巴,Cerebras 更像为了少数乘客高速直达而设计的跑车。 ## WSE-3 不是 “大号 GPU”,它是一整片晶圆 Cerebras 的核心产品 WSE,是把整片晶圆当成一颗芯片,而不是切割成几十、上百颗独立 die。 WSE-3 采用台积电 N5 工艺,由 12×7、共 84 个相同步进区域组成。每片晶圆上有约 97 万个核心,其中 90 万个启用。晶圆面积的一半给 SRAM,另一半给计算核心。这个设计的关键,是计算和存储都留在同一片硅上,尽量避免数据离开芯片、离开封装。 参数很夸张: SRAM 容量:44GB SRAM 带宽:21PB/s 对外 I/O:150GB/s 公开营销口径 FP16 算力:125PFLOPs 按 8:1 非结构化稀疏折算后的 dense FP16 算力:约 15.6PFLOPs 这组数字要分开看。21PB/s 内存带宽是 Cerebras 最强的地方;15.6PFLOPs dense FP16 算力也不低,但如果按单位硅面积衡量,并不像宣传口径那么惊人。125PFLOPs 来自稀疏假设,材料里把这种算法调侃为 “Feldman’s Formula”,对应的是把 dense 算力乘以 8。 真正的分界线在内存类型。GPU、TPU、Trainium 这类主流 AI 加速器把模型权重和 KV Cache 放在 HBM 里;Cerebras 把它们尽量放进 SRAM。SRAM 快、延迟低,但单位 bit 成本高,容量密度低。 44GB SRAM 放在单芯片世界里很大。可和 HBM 比,它又不大。单个 HBM3E 12-Hi 堆栈就有 36GB;当前一颗高端 GPU 或 TPU 封装常见 8 堆栈,对应 288GB,是 WSE-3 SRAM 容量的 6.5 倍。 这就是 Cerebras 的基本交换:用容量换速度。 ## 晶圆赢在低算术强度 decode,输在大模型和长上下文 Cerebras 最适合的任务,是低算术强度、内存带宽受限的 decode 阶段。 大模型推理里,很多 kernel 并不是缺算力,而是缺内存带宽。GPU 的 Tensor Core 可能很强,但如果权重和 KV Cache 喂不上来,算力就会饿着。Cerebras 把大量 SRAM 铺在晶圆上,数据离计算单元更近,带宽足够高,batch=1 这类低并发 decode 场景能跑出传统 HBM 系统很难达到的交互速度。 材料中的理论对比很清楚:如果看一个 batch=1、算术强度约为 2 的 decode kernel,NVIDIA GPU 和 Groq LPU 理论上只能实现几十到数百 TFLOPs 量级;Cerebras WSE-3 在理想条件下可以接近完整 15.625PFLOPs dense FP16 算力。 这就是 “快 Token” 的硬件基础。 **但只要模型变大、上下文变长,44GB SRAM 就开始紧张。推理系统的内存要装三类东西:** 模型权重; 并发请求所需 KV Cache; 长上下文带来的更大 KV Cache。 agentic coding 这类工作负载尤其麻烦。样本测算中,约 43.2 万条请求、约 800 亿 Token 显示,典型 P50 输入序列长度约为 96.3k Token,而不是 Cerebras 产品假设中的 64k;接近 50% 的请求超过 128k,这已经达到 Cerebras 公开端点目前支持的最大上下文窗口。 这意味着,如果未来模型服务走向 256k、1M 上下文,Cerebras 要么压缩 KV Cache,要么上更多晶圆,要么牺牲交互速度和经济性。 ## 冷却和 BOM 说明:这不是便宜算力 CS-3 系统不是把一颗芯片插进服务器那么简单。 每台 CS-3 包括一个 WSE-3 engine block、外围计算和 I/O 模块、两个机械泵、12 个 3.3kW 电源模块,以及液冷系统。单片 WSE-3 本身功耗约 25kW,放在 46,225 平方毫米晶圆上,平均热流密度约 50W/cm²,还没算热点。 风冷却不现实。普通 3D 均热板如果放大到 21.5 厘米见方,会遇到毛细极限,工质回流跟不上。Cerebras 只能做定制液冷结构:冷板、晶圆、柔性连接器、PCB 组成四层 “三明治”,散热歧管接在冷板背后。硅和 PCB 热膨胀系数不同,传统封装会裂,所以连接、预压、装配工具都要定制。 数据中心侧也被改变。GB200 NVL72 参考设计的设施侧流量约 1.5 LPM/kW,而 WSE-3 在 25kW 下约 100 LPM,相当于 4 LPM/kW,接近 3 倍。这要求更大的泵、更粗的管、更大的 CDU 和更高流量的快接头。CS-4 若能把机架级流量拉回 1.5—1.7 LPM/kW,才更接近标准化基础设施。 成本同样不轻。CS-3 加 KVSS CPU 节点的 BOM 估算,在去年四季度内存涨价前约 35 万美元/机架;计入最新内存价格后约 45 万美元/机架。KVSS 是双路 AMD CPU 节点,配 6TB DDR5 RDIMM,用于 KV Cache offload。 有意思的是,最贵的不只是台积电 N5 晶圆。单片 N5 晶圆名义成本约 2 万美元,但 Cerebras 还要为每批晶圆做额外上层金属 mask,用来绕过缺陷 tile;Vicor 定制供电模块也很贵,材料中估计其价值量接近台积电内容;冷却、封装、组装大量自研,外围还有 12 个 100GbE Xilinx FPGA 承担类似 NIC 的角色,把 Cerebras 自有 I/O 转换成以太网。 **所以 Cerebras 并不是 “便宜芯片替代 GPU”。它是在一个特定推理速度区间,用复杂系统换极致交互速度。** ## SRAM 扩展停滞,是 Cerebras 绕不过去的节点问题 Cerebras 最依赖 SRAM,但 SRAM scaling 正在失速。 三代 WSE 的 SRAM 容量变化很能说明问题: WSE-1,台积电 16nm,18GB SRAM; WSE-2,7nm,40GB SRAM,代际提升 2.2 倍; WSE-3,5nm,44GB SRAM,只提升约 10%。 同样从 7nm 走到 5nm,逻辑晶体管数量增长约 50%,但 SRAM 容量几乎没怎么动。往后更难。N3E 相对 N5 在 SRAM 上基本没有缩小,N2 及以后也继续受限。 **对 Cerebras 来说,这比对 GPU 厂商更致命。GPU 可以继续叠 HBM、扩封装、靠互联池化内存;Groq 这类 SRAM 机器也可以用 hybrid bonding 在 Z 方向堆更多 SRAM tile。Cerebras 是整片晶圆,平面面积已经用满。如果增加 SRAM 面积,就要牺牲计算面积。** CS-4 的路线也暴露了这一点:仍使用 N5 基础的 WSE-3,但提高功耗、提升时钟和计算持续能力,SRAM 容量不变。 可选方向是晶圆对晶圆混合键合,把 DRAM 晶圆或更多存储叠到 WSE 上。Cerebras 确实在探索这种路径。但晶圆级整体芯片的热机械问题、bond wave 问题,都比常规 hybrid bonding 更难。它过去解决过很多不寻常问题,但下一步仍然是硬仗。 ## 最大硬伤是 I/O:晶圆很大,出口却很窄 WSE-3 片外带宽只有 150GB/s,也就是 1.2Tb/s。相对它的计算规模和片上带宽,这个出口太小。 这个问题不是工程师没意识到 I/O 重要,而是晶圆级架构自身的几何约束。 WSE 由 84 个相同步进区域组成,每个 reticle 曝光图案必须一致,逻辑、SRAM、布线位置都一样,才能让跨划片道互联在晶圆上连续延伸。也就是说,不能只在边缘 reticle 放 SerDes PHY,而中间 reticle 全做计算。每个 reticle 都必须长一样。 如果要增加边缘 I/O,就要在每个 reticle 里都放 PHY。问题是,中间那些 PHY 没有办法连接外部世界,只会变成浪费的硅面积。更糟的是,高速 SerDes PHY 面积大、模拟电路不喜欢贴近数字逻辑,还要 guard region;放进晶圆内部,会在 2D mesh 里打洞,增加绕线和延迟,削弱晶圆级互联本来要解决的问题。 **材料里给了一个直观数字:WSE 当前片外带宽约 0.17GB/s/mm 边缘密度,NVIDIA 片外 I/O 密度约为其 130 倍。** **Cerebras 的解法是光互联晶圆:通过混合键合把光子互联晶圆叠到 WSE 上,让数据沿 Z 轴进出,而不是从晶圆边缘挤出去。合作方是 Ranovus。** 这条路很漂亮,也很难。光学器件对温度敏感,不能太热也不能太冷;它还要贴着一片高功耗晶圆。光纤耦合在普通 CPO 里都还没完全工程化到轻松量产,更不用说放大到整片晶圆。 ## 大模型会迫使 Cerebras 用流水线,而这违背了 “快” 的初衷 如果模型装不进一片 WSE,就只能跨多片晶圆切分。 但低 I/O 带宽排除了很多常见并行方式。高带宽 collective 通信不现实,大张量频繁进出晶圆也不现实。剩下最可行的是 pipeline parallelism:按层把模型切到多片 WSE 上,每片晶圆保留对应层权重,只在阶段之间传激活值。 Cerebras 服务 Llama 3 70B 时,就是把模型切到 4 片 WSE-3 上,只在晶圆之间传激活,通信量能压在 1.2Tb/s I/O 能力范围内。 **但流水线会带来三个问题。** 第一,pipeline bubble。4 个阶段至少需要约 4 个 in-flight microbatch 保持忙碌;16 个阶段就需要约 16 个。阶段越多,调度越难。 第二,每个 in-flight microbatch 都有自己的 KV Cache,而 KV Cache 也要和权重一起挤在 44GB SRAM 里。哪怕新模型用更强 KV 压缩,KV 在片上片下搬运仍会以毫秒级增加 TTFT 和 TPOT 压力。 第三,晶圆数量增加,激活在晶圆间传输的固定延迟也线性增加。模型越大,越偏离 Cerebras 最理想的形态:小 batch、低延迟、单片或少数晶圆高速 decode。 公开产品线也透露了边界。Cerebras Inference Cloud 目前最大生产模型是 GPT-OSS,120B 总参数;更大的 preview 模型 GLM 4.7 也到 355B 为止。Llama 70B 和 405B 曾经受欢迎,后来被下线,可能与服务经济性有关。DeepSeek V3 和 Kimi K2 这两个 2025 年热门开源前沿模型,也没有出现在 Cerebras 公共云上。 不过这不是绝对死局。DeepSeek V4 Pro 这类模型如果采用更强 KV Cache 压缩,在足够并发下,1T+ 模型也可能重新变得可服务。问题在于,能不能同时保住 Cerebras 最值钱的东西:速度。 ## OpenAI 把 Cerebras 拉进主牌桌,也把风险集中到自己身上 OpenAI 在 Cerebras 未来里不是普通客户。 **2025 年 12 月,双方签署 Master Relationship Agreement。OpenAI 承诺购买 750MW AI 推理算力,2026—2028 年分批部署,每批期限 3—4 年,可延长到 5 年。OpenAI 还有选择权,可额外购买 1.25GW,把总量提高到 2GW。** S-1 披露,截至 2025 年 12 月 31 日,Cerebras 剩余履约义务为 246 亿美元。更重要的是,数据中心租金、电力、租赁改良、安全等 pass-through 成本由 OpenAI 报销,并按总额确认为收入。 OpenAI 还提供 10 亿美元工作资本贷款,年利率 6%。如果 Cerebras 通过交付算力或硬件偿还,对应利息可豁免。偿还从初始 250MW 最后一批交付后开始,三年等额摊还。如果 MRA 因 OpenAI 重大未补救违约以外原因终止,Cerebras 可能要立即偿还全部未偿本金和应计利息。OpenAI 还可以指示托管银行停止按 Cerebras 指令使用资金,转为直接控制资金处置。 股权绑定也很深。Cerebras 向 OpenAI 发行 33,445,026 股 Class N 无投票权普通股认股权证,行权价 0.00001 美元,几乎等同免费。其中一部分因 10 亿美元贷款已立即归属,另一部分和 400 亿美元市值或付款门槛挂钩,剩余部分和算力交付、额外 2GW 扩张选项相关。完全稀释后,OpenAI 最多可持有 Cerebras 约 12% 股份,不包括后续新发行。 按 ASC 505-50,给客户的权益激励会在商业协议期内作为 contra-revenue 确认。以 S-1 中 82.02 美元/股估值粗算,全部认股权证理论上对应约 27.4 亿美元 contra-revenue,约为 OpenAI 预期收入的 10%。 这是一笔能改变命运的订单,也是一个把公司命运押到单一对手方上的结构。 ## GPT-5.3-Codex-Spark 证明了速度价值,但也暴露模型尺寸问题 OpenAI 发布 GPT-5.3-Codex-Spark 后,Cerebras 的叙事更完整了。这个模型使用 gpt-oss-120B 架构,由真正的 GPT-5.3-Codex 蒸馏而来,在 Cerebras 上最高可跑到 2000 tok/sec/user。 关键在 “120B”。它不是完整 GPT-5.3-Codex,而是小得多的蒸馏模型。材料中明确写到,它比完整模型小 10 倍以上。 这对 Cerebras 既是好消息,也是限制。 好消息是,120B 级别模型如果能力足够强,再叠加极快输出速度,确实可能成为高价值产品。开发者已经证明过,愿意为了更快 Token 放弃部分前沿智能。 限制在于,OpenAI 如果要在 Cerebras 上跑 1T 参数以上、1M 上下文窗口、面向真实 agentic workload 的大模型,就要接受明显成本取舍,并且实际交互速度可能低于 1000 tok/sec。能不能卖出足够高的 Token 溢价,是商业模型成立的关键。 材料给出的路径假设很激进:小模型能力继续提升,约一年内 120B 形态可能接近 GPT-5.5 级别智能。如果这成立,Cerebras 就不需要承载最前沿、最大参数模型,也能卖出高价快 Token。OpenAI 锁定的 750MW 只是第一步,真正的上行空间来自是否行使额外 1.25GW 选项,甚至继续扩大采购。 但这个上行条件很窄:Cerebras 必须证明,能在自己硬件适合的模型尺寸里,持续装下足够聪明、足够赚钱的模型。 ## IPO 的核心问题:快 Token 溢价能不能长期覆盖硬件取舍 Cerebras 不是另一个 GPU 故事。它不是在训练、大模型通用推理、长上下文吞吐上全面替代 NVIDIA,而是在一个更窄但可能很赚钱的区间里押重注:高交互速度、低 batch、用户愿意付溢价的推理。 晶圆级架构给了它极强的带宽和极快 decode,也让它背上了 SRAM 容量、片外 I/O、冷却、BOM、数据中心适配这些硬约束。OpenAI 订单解决了需求问题,却没有消除交付风险和客户集中度。 所以 Cerebras 的 IPO 定价,不该只看 246 亿美元 backlog,也不该只看 2000 tok/sec/user 这种漂亮速度。更重要的是三个问题: OpenAI 需要的快 Token,长期是不是 120B—355B 这类模型就够; 用户愿意为速度付出的溢价,能不能覆盖 Cerebras 更复杂的系统成本; 750MW 到 2028 年能否按节奏落地,且不被冷却、电力、供应链和数据中心能力拖住。 **如果答案偏向 “是”,Cerebras 会成为快推理时代最有辨识度的 AI 硬件公司之一。如果答案偏向 “否”,整片晶圆带来的速度优势,可能会被大模型和长上下文的内存需求一点点吃掉。** ### 相关股票 - [159995.CN](https://longbridge.com/zh-CN/quote/159995.CN.md) - [588780.CN](https://longbridge.com/zh-CN/quote/588780.CN.md) - [159325.CN](https://longbridge.com/zh-CN/quote/159325.CN.md) - [SOXL.US](https://longbridge.com/zh-CN/quote/SOXL.US.md) - [512760.CN](https://longbridge.com/zh-CN/quote/512760.CN.md) - [512720.CN](https://longbridge.com/zh-CN/quote/512720.CN.md) - [SOXX.US](https://longbridge.com/zh-CN/quote/SOXX.US.md) - [159998.CN](https://longbridge.com/zh-CN/quote/159998.CN.md) - [CBRS.US](https://longbridge.com/zh-CN/quote/CBRS.US.md) - [OpenAI.NA](https://longbridge.com/zh-CN/quote/OpenAI.NA.md) - [NVDA.US](https://longbridge.com/zh-CN/quote/NVDA.US.md) - [AMD.US](https://longbridge.com/zh-CN/quote/AMD.US.md) - [TSM.US](https://longbridge.com/zh-CN/quote/TSM.US.md) - [VICR.US](https://longbridge.com/zh-CN/quote/VICR.US.md) - [RAN.US](https://longbridge.com/zh-CN/quote/RAN.US.md) - [NVD.DE](https://longbridge.com/zh-CN/quote/NVD.DE.md) ## 相关资讯与研究 - [人工智能产业日报 (05.12) : AI 产业加速](https://longbridge.com/zh-CN/news/286147707.md) - [京投发展三年亏 29.3 亿坚定 “退房” 跨界芯片股价年内大涨 3 倍遭问询](https://longbridge.com/zh-CN/news/286350173.md) - [华尔街疯抢,报道称 AI 芯片 Cerebras IPO 定价一再被突破,估值将逼近 490 亿美元](https://longbridge.com/zh-CN/news/286324261.md) - [花旗上调应用材料目标价升至 520 美元 看好晶圆设备需求前景](https://longbridge.com/zh-CN/news/286145630.md) - [智谱找到了 “AI 最优解”?](https://longbridge.com/zh-CN/news/286236434.md)