Dolphin Research
2026.03.17 07:40

英伟达(GTC 纪要):LPU 解构 AI 推理,算力工厂向太空进发

具体点评可以参考《英伟达 GTC:AI 界春晚,满心期待、扫兴而归?

以下是$英伟达(NVDA.US) GTC 大会全文内容:

英伟达创始人兼 CEO 黄仁勋在 GTC 2026 大会上发表主题演讲,核心议题涵盖CUDA 平台 20 周年、推理拐点与算力需求爆发、Vera Rubin 系统架构、Groq 集成、OpenClaw 代理革命及物理 AI 与机器人

CUDA 20 周年与平台飞轮效应

CUDA 已诞生 20 年。20 年来英伟达持续投入这一架构,从 SIMT(单指令多线程)到最近新增的 Tiles 以帮助编程 Tensor Core。CUDA 已集成进每一个生态系统,开源项目超过数十万个。

英伟达的核心战略可以用一张图描述:安装基数(install base)吸引开发者,开发者创造新算法实现突破(如深度学习),突破催生全新市场和生态,生态扩大安装基数,飞轮加速旋转。NVIDIA 库的下载量在大规模基础上仍加速增长。

由于 CUDA 支持 AI 全生命周期、所有数据处理平台和各类科学求解器,GPU 的有效使用寿命极长——六年前发售的 Ampere 在云端的定价甚至在上涨。

CUDA 的起点可追溯到 25 年前 GeForce 的可编程着色器——这是世界上第一个可编程加速器(Pixel Shader)。GeForce 把 CUDA 带到全世界,Alex Krizhevsky、Ilya Sutskever、Jeff Hinton、Andrew Ng 等人发现 GPU 可以加速深度学习,引发了 AI 大爆炸。

Neural Rendering 与 DLSS 5

黄仁勋展示了下一代图形技术——Neural Rendering,即 3D 图形与 AI 的融合,命名为 DLSS 5。其核心思路是将可控的 3D 图形(结构化数据、虚拟世界的 ground truth)与生成式 AI(概率计算)结合:一个完全可预测,另一个概率性但高度逼真。结果是内容既美观又可控。

这种"结构化信息 + 生成式 AI"的融合模式将在一个又一个行业中复现。结构化数据是可信 AI 的基础。

数据处理平台:cuDF 与 cuVS

英伟达创建了两个基础库:cuDF 用于结构化数据(数据帧),cuVS 用于向量存储(语义数据、非结构化数据)。全球约 90% 每年生成的数据是非结构化数据(PDF、视频、语音等),此前这些数据基本无法查询和检索。如今 AI 的多模态感知和理解能力使得对非结构化数据的索引成为可能。

合作案例:IBM 用 cuDF 加速 watsonx data;Dell 与英伟达合作创建 Dell AI 数据平台(集成 cuDF 和 cuVS);Google Cloud 的 BigQuery 集成后,与 Snapchat 合作将计算成本降低近 80%。加速计算同时带来速度、规模和成本三重收益。

加速计算的垂直整合与水平开放

英伟达是世界上第一家"垂直整合但水平开放"的公司。加速计算本质上是"应用加速"——必须理解应用、理解领域、理解算法,然后部署到数据中心、云、边缘或机器人系统等不同场景。英伟达垂直整合从芯片到系统到软件库,但水平上将技术开放集成到全球云服务和 OEM 平台。

与各大云厂商的合作:Google Cloud(加速 Vertex AI、BigQuery、JAX/XLA、PyTorch)、AWS(加速 EMR、SageMaker、Bedrock,并将 OpenAI 引入 AWS)、Microsoft Azure(AI Foundry、Bing Search、机密计算)、Oracle(英伟达是其第一个 AI 客户)、CoreWeave(全球首个 AI 原生云)、Palantir 与 Dell 合作在任何国家/气隙区域部署 AI 平台。

英伟达是世界上唯一在 PyTorch 和 JAX/XLA 上都表现卓越的加速器。

行业垂直覆盖

GTC 覆盖 AI 五层蛋糕的每一层:基础设施、芯片、平台、模型、应用。

英伟达在以下垂直领域均有深度布局:自动驾驶(Alpamayo)、金融服务(本次 GTC 最大参会群体,从传统量化转向大规模深度学习)、医疗健康(AI 药物发现、AI 诊断辅助)、工业制造(全球最大的 AI 工厂建设潮)、媒体娱乐/游戏、量子计算(35 家公司共建量子-GPU 混合系统)、零售($35 万亿行业,agentic 购物系统)、机器人与制造业($50 万亿行业,110 个机器人参展)、电信(AI-RAN,与 Nokia、T-Mobile 合作)。

CUDA-X 库是英伟达的"皇冠上的明珠",本次 GTC 宣布约 100 个库、约 70 个新库、约 40 个模型。cuDNN 彻底革命了 AI,引发了现代 AI 大爆炸。

AI 原生公司与风投浪潮

AI 原生创业公司获得了$1,500 亿风险投资,为人类历史最大规模。这是首次投资规模从数百万跳到数亿乃至数十亿美元级别,因为每家公司都需要大量算力和 token。这些公司要么自建 token 生成能力,要么在 Anthropic、OpenAI 等提供的 token 基础上增值。

推理拐点:算力需求增长 100 万倍

过去两年发生了三个关键转折:

1. 生成式 AI(ChatGPT,2022/23 年):AI 从检索式计算转向生成式计算,根本改变了计算方式

2. 推理 AI(o1/o3):使 AI 能够反思、规划、分解问题、基于研究自我验证,使生成式 AI 变得可信和有根据

3. Agentic AI(Claude Code):第一个代理模型,能读取文件、编码、编译、测试、评估、迭代。已彻底革命软件工程,100% 的英伟达工程师在使用 Claude Code、Codex 和 Cursor 中的一种或多种组合。

推理拐点已到来:AI 需要思考就需要推理,需要行动就需要推理,需要阅读就需要推理。过去两年,单次任务的计算需求增长了约 10,000 倍,使用量增长约 100 倍,综合算力需求增长约 100 万倍。所有 AI 公司都处于算力受限状态——如果能获得更多算力,收入就会增长。

去年 GTC 黄仁勋称看到$5,000 亿的高确信度需求(Blackwell 和 Rubin 至 2026 年)。如今,到 2027 年,他看到至少$1 万亿的需求,且实际需求可能远超此数。

Grace Blackwell 的推理表现

2025 年是英伟达的"推理之年"。SemiAnalysis 进行了史上最全面的 AI 推理基准测试,结果显示:

- 在 tokens/watt(吞吐量)和 token 速度(智能度)两个维度上,英伟达均为全球最高性能

- Grace Blackwell NVLink 72 相比 Hopper H200 实现了 35 倍(实测 50 倍)的每瓦性能提升,而摩尔定律同期仅预期 1.5 倍

- 英伟达的 token 成本全球最低,"basically untouchable"

- SemiAnalysis 的 Dylan Patel 评价黄仁勋"sandbagged(保守了)"

以 Fireworks 为例:同一系统上,英伟达更新软件后 token 速度从平均 700 tokens/s 提升至近 5,000 tokens/s,提升 7 倍。

Token 工厂经济学

数据中心正从"文件存储中心"转变为"token 工厂"。每个工厂受限于功率(如 1GW),CEO 们需要管理 token 生产的吞吐量和速度。token 将像大宗商品一样细分层级:

- 免费层:高吞吐、低速度

- $3/百万 token 层

- $6/百万 token 层

- $45/百万 token 层

- 高级层:$150/百万 token

以 1GW 数据中心为例,每 25% 功率分配一个层级:Grace Blackwell 可比 Hopper 生成 5 倍收入,Vera Rubin 可再提升 5 倍。

Vera Rubin 系统架构

Vera Rubin 是英伟达新一代 AI 系统,核心特征:

- 100% 液冷(45°C 热水冷却),所有线缆取消,安装时间从两天缩短至两小时

- 第六代 NVLink scale-up 交换系统(非以太网、非 InfiniBand),完全液冷

- 全新 CPU:面向极高单线程性能、极高数据吞出、极致能效,采用 LPDDR5,世界上唯一使用 LPDDR5 的数据中心 CPU,独立 CPU 业务已确定将成为数十亿美元级业务

- 全新 Groq 系统(第三代 LP30 芯片,三星制造),已量产

- 全球首款 CPO(共封装光学)Spectrum-X 交换机,已全面量产,与 TSMC 共同发明 COUPE 工艺

- BlueField-4 存储平台(Vera CPU + CX9)

Vera Rubin 已在 Microsoft Azure 上线运行(第一个 rack),Satya Nadella 已确认。英伟达供应链已可每周生产数千套系统,每月数 GW 级 AI 工厂产能。

Rubin Ultra:144 GPU 在一个 NVLink 域内,采用全新 Kyber 机架,计算节点垂直插入,中板后方用 NVLink 交换机替代铜缆。

在 1GW 工厂中,两年内 token 生成速率从 2,200 万提升至 7 亿,350 倍提升

Groq 集成:disaggregated inference

英伟达收购了 Groq 团队并授权其技术。Groq 是确定性数据流处理器,静态编译、编译器调度、大量 SRAM,专为推理设计。

单颗 Groq 芯片 500MB SRAM vs 单颗 Rubin 芯片 288GB,Groq 单独无法承载主流大模型的参数和 KV Cache。

解决方案是通过 Dynamo 软件实现 disaggregated inference(分解推理):prefill 在 Vera Rubin 上完成,decode 的 attention 部分在 Vera Rubin 上完成(需大量数学运算),decode 的前馈网络/token 生成部分 offload 到 Groq(需极低延迟、高带宽)。两者通过以太网紧密耦合(特殊模式将延迟降低约一半)。

效果:在最高价值层级上性能再提升 35 倍。如果大部分工作负载是高吞吐型,100% Vera Rubin 即可;如果有大量编码等高价值 token 生成需求,建议 25% 数据中心配置 Groq + 75% Vera Rubin。

Groq LP30(三星制造)已量产,预计 Q3 发货。

产品路线图

- Blackwell/Rubin:Oberon 系统(标准机架),铜缆 scale-up(NVLink 72);光学 scale-up 扩展至 NVLink 576

- Rubin Ultra:Kyber 机架,铜缆 scale-up 至 NVLink 144

- 下一代 Rubin Ultra:新芯片 + LP35(首次集成 NVFP4 计算结构);Oberon + Spectrum-6 CPO

- Feynman(再下一代):全新 GPU + LP40(LPU)+ Rosa CPU(以 Rosalind 命名)+ BlueField-5 + CX10;Kyber 铜缆 scale-up + Kyber CPO scale-up(首次同时支持铜缆和 CPO scale-up)

每年一个全新架构。铜缆、光学、CPO 三种互联方式都会持续投入。

AI 工厂与 DSX 平台

英伟达从芯片公司转型为 AI 工厂/AI 基础设施公司。新平台 NVIDIA DSX(基于 Omniverse)用于在虚拟环境中设计 GW 级 AI 工厂:机架的机械、热、电气、网络仿真,与电网交互调节功率,数据中心内部用 Max-Q 动态调节系统功率和冷却,目标是"不浪费一瓦功率"。黄仁勋认为这里有"2 倍的优化空间"。

此外,英伟达宣布 Vera Rubin Space-1,计划将数据中心部署到太空(需解决辐射散热问题,太空中无传导和对流,仅有辐射)。

OpenClaw 代理革命

OpenClaw 是人类历史上最受欢迎的开源项目,几周内超越了 Linux 30 年的成就。黄仁勋将其类比为"代理计算机的操作系统"——就像 Windows 使个人电脑成为可能,OpenClaw 使"个人代理"成为可能。

OpenClaw 具备:资源管理、工具调用、文件系统访问、LLM 连接、任务调度(cron jobs)、问题分解、sub-agent 调用、多模态 I/O。

每家公司都需要 OpenClaw 战略,就像曾经需要 Linux 战略、HTTP/HTML 战略、Kubernetes 战略一样。每家 SaaS 公司将变成 GaaS 公司(Agent-as-a-Service)。

但代理系统在企业网络中可以访问敏感信息、执行代码、对外通信——这需要企业级安全。英伟达与 OpenClaw 创始人 Peter Steinberger 合作推出NemoClaw(OpenClaw 的企业安全参考设计),集成 OpenShell 技术,包含网络护栏(network guardrail)和隐私路由器(privacy router),可连接各 SaaS 公司的策略引擎。

黄仁勋预测:未来每个工程师将获得年度 token 预算,可能是基本薪资的一半,用于 10 倍放大生产力。"你的 offer 包含多少 token?"正成为硅谷的招聘工具。

NVIDIA 开放模型计划与 Nemotron Coalition

英伟达在每个 AI 模型领域均达到前沿:Nemotron(语言)、Cosmos(世界基础模型)、GR00T(通用机器人)、Alpamayo(自动驾驶)、BioNeMo(数字生物学)、Earth-2(AI 物理)。

Nemotron-3 在 OpenClaw 中排名全球前三。Nemotron-3 Ultra 将成为最佳 base model,支持各国构建主权 AI。

宣布Nemotron Coalition合作伙伴:Black Forest Labs(图像)、Cursor(编程)、LangChain(代理框架,十亿下载量)、Mistral、Perplexity、Reflection、Sarvam(印度)、Thinking Machines Lab(Mira Murati 的实验室)。

物理 AI 与机器人

几乎所有在造机器人的公司都在与英伟达合作。英伟达提供三台计算机:训练计算机、合成数据生成与仿真计算机、机器人内置计算机。

自动驾驶:"自动驾驶的 ChatGPT 时刻已到来"。新增四家 robotaxi-ready 平台合作伙伴:比亚迪、现代、日产、吉利,合计年产 1,800 万辆,加上此前的奔驰、丰田、通用。同时宣布与 Uber 在多个城市部署 robotaxi。

工业机器人:ABB、Universal Robots、KUKA 等将英伟达物理 AI 模型集成到仿真系统中,部署到制造产线。

人形机器人:110 个机器人参展。Disney 的 Olaf 机器人现场演示——由 Jetson 驱动,在 Omniverse 中学习行走,使用 Newton 物理求解器(NVIDIA Warp + Disney + DeepMind 联合开发)。

本文的风险披露与声明:海豚君免责声明及一般披露