Dolphin Research
2026.01.07 09:31

老黄解锁 Rubin,AI 存储又添 “一把火”

portai
我是 PortAI,我可以总结文章信息。

在 AI 需求带动本轮存储 “超级” 周期的情况下,存储行业在昨晚再次迎来大涨($Sandisk(SNDK.US) +27%,$美光科技(MU.US) +10%),而这主要是黄仁勋在 CES2026 上的演讲给原本火热的存储市场又添上了 “一把火”。

Source:Longport.app

首先我们回顾一下,黄仁勋在 CES2026 大会上的核心内容,一方面是谈物理 AI 的广阔前景和落地场景;另一方面就是 Rubin 架构的进展和提升。而本次存储领域的大涨,正是由 Rubin 架构中更大的存储需求带来的。

整体来看:$英伟达(NVDA.US) Rubin 中变化最大的就是,在 “算力层 + 网络层” 的基础上,又新增了 “存储和安全层”。下游需求的增长,无疑会加剧存储市场的 “供需失衡” 的状态。

Rubin 对存储的影响,具体细分:①HBM 符合预期。升级至 HBM4,但单 GPU 搭载的容量不变;②DDR 略好于预期。单 CPU 搭载的 DDR 量提升至原来的 3 倍,综合来看 2026 年大致对应关系是单卡 GPU 配置 0.5TB 的 DDR 量;③NAND 是最超预期的部分,新增的推理 “上下文存储平台”(ICMS 平台),通过利用 NAND 担任为 “外挂内存”,减轻 HBM 原有的压力。

整体来看,在本次老黄 CES2026 演讲后,HBM 的需求量预期未变;DDR 的需求量增加了 1EB 左右,对应供需缺口扩大 1% 左右;对 NAND 需求量直接影响是增加了 45EB 左右,对应的供需缺口将扩大 4-5% 左右。

由于 NAND 是最为受益的部分,从昨天至今的股价表现也能看出,闪迪和铠侠的股价涨幅更为明显,海力士、三星的股价表现相对更弱。

以下是海豚君关于 Rubin 及老黄在 CES2026 演讲的核心内容:

一、Rubin 架构对存储需求的影响:

从 Blackwell 到 Rubin,HBM 依然是 AI 服务器中最为核心的部分,不会被新增的存储层(NAND)所替代。随着推理模型越来越大,HBM 会有容量压力。而将一部分原本塞入 HBM 的 KV cache 迁移至 BlueField-4+NAND 上,一定程度上减轻了 HBM 的压力

黄仁勋在演讲中提到 Rubin 将从 NVL144 改回 NVL72,实质上是一样的。因为此前 144 是以 die 的个数来计算,而这次 72 是以 GPU 个数(1 个 GPU=2 个 die)来计。因而,在下面的需求量考虑中,海豚君也用 NVL72 的口径来预估。

1.1 HBM 的影响:不可替代的刚需

相比于 Blackwell,Rubin 将使用 HBM4 芯片。虽然 HBM4 在单 GPU 带宽有望达到 22TB/s(是 HBM3E 的 2.8 倍),但单 GPU 的 HBM4 容量将和 HBM3E 同样为 288GB,增长主要来自于 GPU 出货量的带动,是符合市场预期的

1.2 DDR 的影响:主要在 CPU 中负责系统控制、数据预处理与上下文管理

相比于 Grace,单颗 Vera CPU 的 DDR 需求量将提升至 1.5TB(是 Grace 的 3 倍),基于单个 NVL72(72GPU+36CPU)来看,大约对 DDR 的需求量为 54TB,是此前的 3 倍左右(Blackwell 约为 18TB)。

从市场对英伟达 CoWoS 的预期来看,2026 年英伟达的 CoWoS 中大约是 B300 和 Rubin 是 1:1,以平均值预估 2026 年单个 NVL72 对 DDR 的需求量约为 36TB。换算来看,大致对应关系是 1 个 GPU 需要 0.5TB 的 DDR(略好于市场预期)。

结合当前市场预期的 2026 年 CoWoS 的总量来看,海豚君预估 2026 年 AI 服务器对传统 DDR 的需求将达到 91.9 亿 GB(9.2EB),同比增长 250%,比市场原有预期提升了 1EB 左右

具体来看,AI 服务器在 CoWoS 产量提升和单台配置数量提升的带动下,2026 年 AI 服务器领域对传统 DDR 的需求增量将达到 66 亿 GB 左右(6.6EB),占 DRAM 整体市场供应量的 15-20%,这将直接侵蚀原有 PC、手机等领域的供应量

1.3 NAND 的影响:用于系统启动和模型权重的预加载,Rubin 引入了 “推理上下文存储平台”

NAND 原本在 Blackwell 架构中,主要是用在系统中,负责系统启动和模型权重的预加载,单个 NVL72 大约需要是 500-1200TB 的容量(取中值 850TB)。

在本次老黄的演讲中,英伟达将在 Rubin 结构中新增 “推理上下文存储平台”(ICMS 平台),这是超预期的。新增的 ICMS 专用上下文存储,将 KV Cache 从 HBM 下沉至更具性价比的存储介质,释放 HBM 带宽用于计算,是推理成本降低 90% 的核心创新之一。

其中每个 Rubin GPU 可以额外扩展 16TB 的 NAND(作为 “外挂内存”),对于单个 NVL72 可以拓展 1152TB 的 NAND 需求。由于在 Rubin 结构中仍然需要 850TB 左右的 NVMe SSD,单个 NVL72 的合计 NAND 需求量将达到 2000TB 左右

当前市场预估 2026 年英伟达 Rubin 的 CoWoS 量约为 35 万片,进而测算大约能生产 3.9 万台 NVL72 机柜。由于单个机柜将新增了 1152TB 的 NAND 需求(最超预期的部分),那么老黄本次演讲后让英伟达 Rubin 对 2026 年的 NAND 需求量将再次提升 44.8EB,这相当于 2025 年全球 NAND 供应总量的 4-5%,加大了供需缺口,给原本紧张的 NAND 供需格局又 “添了一把火”。

二、老黄的 CES2026:从 GPU 厂商转型为 AI 全栈基础设施提供商

英伟达 CEO 黄仁勋在 CES2026 发表主题演讲,最主要是围绕物理 AI 和 Vera Rubin 架构两大方面展开

2.1 物理 AI-“ChatGPT 时刻”

AI 的发展过程:感知 AI->生成式 AI->AI 智能体->物理 AI

物理 AI 的定义:让 AI 理解重力、惯性、因果关系等物理定律,具备在真实世界中推理、规划、行动和解释的能力。不再仅仅是预先录制的程序,而是能实时 “思考” 的智能体

技术原理:①通过合成数据生成(基于物理定律的基准真理)解决物理 AI 训练数据稀缺问题;②依赖三台计算机协同(训练 AI 的 GPU、推理用机器人计算机、模拟用 Omniverse 系统);③核心模型(Cosmos 世界基础模型GR00T 人形机器人系统)实现物理世界理解与交互

落地场景①自动驾驶(Alpamayo 端到端训练,从摄像头输入到执行输出,支持推理与轨迹规划);②工业制造(西门子合作,数字孪生、工厂自动化、芯片设计模拟);③机器人(人形机器人、移动机器人、手术机器人的动作与环境交互);④天气预测(Earth 2 结合 ForecastNet/Cordiff 革新预测方式)。

2.2 NVIDIA Rubin 平台:最大增量 Context Memory

在本次 CES2026 大会上,老黄宣布 NVIDIA Rubin 平台已经进入全面生产阶段,并预计将于 2026 年下半年开始出货。

当前 AI 行业正经历从训练主导到推理主导的结构性转变:训练需求趋于稳定,而推理需求呈指数级增长推理 token 成本已成为 AI 应用商业化的最大瓶颈,决定了产品定价与盈利能力。

黄仁勋在本次 CES2026 演讲中,提到了本次 Rubin 将通过 “六芯片全系统重构” 的方式,将推理 token 成本降至 Blackwell 平台的约 1/10

NVIDIA Rubin 平台将由6 款全新的定制芯片(Vera CPU+Rubin GPU+ConnectX-9+BlueField-4+NVLink 6 Switch+Spectrum-6)组成。具体来看,英伟达从 Blackwell 架构到 Rubin 架构,在整体结构上实现了从 “算力层 + 网络层” 升级成了 “算力层 + 网络层 + 存储与安全层”。其中存储与安全层是在 Rubin 架构下最为明显的增量,这也是带动昨夜存储大涨的主要原因。

1)算力层:核心依然是 Vera CPU+ Rubin GPU。

①Vera CPU:专为大规模 AI 工厂的代理推理(Agentic Reasoning)设计,承担模型协同、任务拆解与算力分配的 “调度” 角色

Vera CPU采用 88 个定制化 Olympus 核心,支持空间多线程(Spatial Multi-Threading),176 个全性能线程。具有 1.8TB/s NVLink-C2C 互连速率、1.5TB LPDDR5X 系统内存(为前代 Grace CPU 的 3 倍),内存带宽 1.2TB/s;

②Rubin GPU:还是超大规模模型训练与高吞吐量推理的“算力引擎”

Rubin GPU推理算力为 50 PFLOPS(NVFP4 精度下,为 Blackwell GPU 的 5 倍),训练算力为 35 PFLOPS(NVFP4 精度下,为 Blackwell 的 3.5 倍)。搭载的 HBM4 内存带宽将达到 22TB/s(为 Blackwell 的 2.8 倍),NVLink 带宽也将是单 GPU 3.6TB/s(为 Blackwell 的 2 倍)。

2)网络层:ConnectX-9+ Spectrum-6 的“AI 以太网”

①ConnectX-9负责处理节点间的 AI 流量,解决传统以太网在 AI 场景下的 “高延迟、易拥堵” 问题。具有 800Gb/s 以太网速率(单端口),支持 200G PAM4 串并转换技术;

②Spectrum-6负责连接数千个 Rubin 机架,支持吉瓦级数据中心的规模化部署。支持 128 个 800Gb/s 或 512 个 200Gb/s 端口,实现 102.4Tb/s 的可扩展交换架构。

3)存储与安全层(新增)BlueField-4

当 AI 服务器的重心从训练侧转向推理侧的过程中,明显遇到了 AI 推理阶段 “上下文内存不足” 的问题。针对于这一问题,英伟达在 Rubin 结构中增加了 BlueField-4 芯片,来承担起存储卸载、安全隔离、KV 缓存管理三大角色。

通过 BlueField-4,Rubin 平台实现了机架级 KV 缓存共享池和安全隔离

a)每台 BlueField-4 可管理 150TB 上下文内存,为每个 Rubin GPU 额外扩展 16TB 的 NAND(作为 “外挂内存”),满足 10 万字长文档理解、数小时多轮对话等场景;

b)与传统存储相比,KV 缓存访问速度提升 5 倍,每秒 Token 处理量(推理吞吐量)和能效同步提升 5 倍,也能避免 GPU 因等待数据空转的问题;

c)通过高级安全可信资源架构(ASTRA)构建系统级安全屏障,解决 “数据隐私” 与 “多租户隔离” 难题:实现全链路加密、多租户隔离和可追溯性。

整体来看,从黄仁勋在本次 CES2026 的演讲来看,英伟达将从 GPU 厂商转型为 AI 全栈基础设施提供商。而公司在 AI 领域也已经开始了全栈布局:①芯片层(Vera CPU、Rubin GPU、Orin/Thor 芯片);②硬件系统层(Vera Rubin 超级计算机、DGX Cloud);③模型层(NeMo Tron、Cosmos 等开源基础模型 + 垂直领域模型);④工具层(NeMo 系列库、蓝图构建框架);⑤生态层(联合 Palantir、西门子等企业)。

<此处结束>

海豚君近期关于存储类及英伟达的相关文章回溯:

2026 年 1 月 6 日 AI 存储热点《存储猛拉,AI 存力超级周期到底有多神?

2025 年 12 月 18 日美光电话会《美光(分析师小会):现金优先用于扩大生产,HBM4 良率爬坡更快

2025 年 12 月 18 日美光电话会《美光(纪要):毛利率继续提升,幅度会放缓

2025 年 12 月 18 日美光财报点评《美光 MU:AI 点燃存力,存储大周期启幕?

2025 年 12 月 9 日英伟达热点《H200 放行:英伟达 6 万亿市值路的 “穿云箭”?

2025 年 11 月 20 日英伟达纪要《英伟达(纪要):明年目标毛利率 75%,Open AI 的合作并不盲目

2025 年 11 月 20 日英伟达财报《比非农还重要!英伟达能再拯救美股吗?

本文的风险披露与声明:海豚君免责声明及一般披露

本文版权归属原作者/机构所有。

当前内容仅代表作者观点,与本平台立场无关。内容仅供投资者参考,亦不构成任何投资建议。如对本平台提供的内容服务有任何疑问或建议,请联系我们。