
英偉達(GTC 紀要):LPU 解構 AI 推理,算力工廠向太空進發
具體點評可以參考《英偉達 GTC:AI 界春晚,滿心期待、掃興而歸?》
以下是$英偉達(NVDA.US) GTC 大會全文內容:
英偉達創始人兼 CEO 黃仁勳在 GTC 2026 大會上發表主題演講,核心議題涵蓋CUDA 平台 20 週年、推理拐點與算力需求爆發、Vera Rubin 系統架構、Groq 集成、OpenClaw 代理革命及物理 AI 與機器人:
CUDA 20 週年與平台飛輪效應
CUDA 已誕生 20 年。20 年來英偉達持續投入這一架構,從 SIMT(單指令多線程)到最近新增的 Tiles 以幫助編程 Tensor Core。CUDA 已集成進每一個生態系統,開源項目超過數十萬個。
英偉達的核心戰略可以用一張圖描述:安裝基數(install base)吸引開發者,開發者創造新算法實現突破(如深度學習),突破催生全新市場和生態,生態擴大安裝基數,飛輪加速旋轉。NVIDIA 庫的下載量在大規模基礎上仍加速增長。
由於 CUDA 支持 AI 全生命週期、所有數據處理平台和各類科學求解器,GPU 的有效使用壽命極長——六年前發售的 Ampere 在雲端的定價甚至在上漲。
CUDA 的起點可追溯到 25 年前 GeForce 的可編程着色器——這是世界上第一個可編程加速器(Pixel Shader)。GeForce 把 CUDA 帶到全世界,Alex Krizhevsky、Ilya Sutskever、Jeff Hinton、Andrew Ng 等人發現 GPU 可以加速深度學習,引發了 AI 大爆炸。
Neural Rendering 與 DLSS 5
黃仁勳展示了下一代圖形技術——Neural Rendering,即 3D 圖形與 AI 的融合,命名為 DLSS 5。其核心思路是將可控的 3D 圖形(結構化數據、虛擬世界的 ground truth)與生成式 AI(概率計算)結合:一個完全可預測,另一個概率性但高度逼真。結果是內容既美觀又可控。
這種"結構化信息 + 生成式 AI"的融合模式將在一個又一個行業中復現。結構化數據是可信 AI 的基礎。
數據處理平台:cuDF 與 cuVS
英偉達創建了兩個基礎庫:cuDF 用於結構化數據(數據幀),cuVS 用於向量存儲(語義數據、非結構化數據)。全球約 90% 每年生成的數據是非結構化數據(PDF、視頻、語音等),此前這些數據基本無法查詢和檢索。如今 AI 的多模態感知和理解能力使得對非結構化數據的索引成為可能。
合作案例:IBM 用 cuDF 加速 watsonx data;Dell 與英偉達合作創建 Dell AI 數據平台(集成 cuDF 和 cuVS);Google Cloud 的 BigQuery 集成後,與 Snapchat 合作將計算成本降低近 80%。加速計算同時帶來速度、規模和成本三重收益。
加速計算的垂直整合與水平開放
英偉達是世界上第一家"垂直整合但水平開放"的公司。加速計算本質上是"應用加速"——必須理解應用、理解領域、理解算法,然後部署到數據中心、雲、邊緣或機器人系統等不同場景。英偉達垂直整合從芯片到系統到軟件庫,但水平上將技術開放集成到全球雲服務和 OEM 平台。
與各大雲廠商的合作:Google Cloud(加速 Vertex AI、BigQuery、JAX/XLA、PyTorch)、AWS(加速 EMR、SageMaker、Bedrock,並將 OpenAI 引入 AWS)、Microsoft Azure(AI Foundry、Bing Search、機密計算)、Oracle(英偉達是其第一個 AI 客户)、CoreWeave(全球首個 AI 原生雲)、Palantir 與 Dell 合作在任何國家/氣隙區域部署 AI 平台。
英偉達是世界上唯一在 PyTorch 和 JAX/XLA 上都表現卓越的加速器。
行業垂直覆蓋
GTC 覆蓋 AI 五層蛋糕的每一層:基礎設施、芯片、平台、模型、應用。
英偉達在以下垂直領域均有深度佈局:自動駕駛(Alpamayo)、金融服務(本次 GTC 最大參會羣體,從傳統量化轉向大規模深度學習)、醫療健康(AI 藥物發現、AI 診斷輔助)、工業製造(全球最大的 AI 工廠建設潮)、媒體娛樂/遊戲、量子計算(35 家公司共建量子-GPU 混合系統)、零售($35 萬億行業,agentic 購物系統)、機器人與製造業($50 萬億行業,110 個機器人蔘展)、電信(AI-RAN,與 Nokia、T-Mobile 合作)。
CUDA-X 庫是英偉達的"皇冠上的明珠",本次 GTC 宣佈約 100 個庫、約 70 個新庫、約 40 個模型。cuDNN 徹底革命了 AI,引發了現代 AI 大爆炸。
AI 原生公司與風投浪潮
AI 原生創業公司獲得了$1,500 億風險投資,為人類歷史最大規模。這是首次投資規模從數百萬跳到數億乃至數十億美元級別,因為每家公司都需要大量算力和 token。這些公司要麼自建 token 生成能力,要麼在 Anthropic、OpenAI 等提供的 token 基礎上增值。
推理拐點:算力需求增長 100 萬倍
過去兩年發生了三個關鍵轉折:
1. 生成式 AI(ChatGPT,2022/23 年):AI 從檢索式計算轉向生成式計算,根本改變了計算方式
2. 推理 AI(o1/o3):使 AI 能夠反思、規劃、分解問題、基於研究自我驗證,使生成式 AI 變得可信和有根據
3. Agentic AI(Claude Code):第一個代理模型,能讀取文件、編碼、編譯、測試、評估、迭代。已徹底革命軟件工程,100% 的英偉達工程師在使用 Claude Code、Codex 和 Cursor 中的一種或多種組合。
推理拐點已到來:AI 需要思考就需要推理,需要行動就需要推理,需要閲讀就需要推理。過去兩年,單次任務的計算需求增長了約 10,000 倍,使用量增長約 100 倍,綜合算力需求增長約 100 萬倍。所有 AI 公司都處於算力受限狀態——如果能獲得更多算力,收入就會增長。
去年 GTC 黃仁勳稱看到$5,000 億的高確信度需求(Blackwell 和 Rubin 至 2026 年)。如今,到 2027 年,他看到至少$1 萬億的需求,且實際需求可能遠超此數。
Grace Blackwell 的推理表現
2025 年是英偉達的"推理之年"。SemiAnalysis 進行了史上最全面的 AI 推理基準測試,結果顯示:
- 在 tokens/watt(吞吐量)和 token 速度(智能度)兩個維度上,英偉達均為全球最高性能
- Grace Blackwell NVLink 72 相比 Hopper H200 實現了 35 倍(實測 50 倍)的每瓦性能提升,而摩爾定律同期僅預期 1.5 倍
- 英偉達的 token 成本全球最低,"basically untouchable"
- SemiAnalysis 的 Dylan Patel 評價黃仁勳"sandbagged(保守了)"
以 Fireworks 為例:同一系統上,英偉達更新軟件後 token 速度從平均 700 tokens/s 提升至近 5,000 tokens/s,提升 7 倍。
Token 工廠經濟學
數據中心正從"文件存儲中心"轉變為"token 工廠"。每個工廠受限於功率(如 1GW),CEO 們需要管理 token 生產的吞吐量和速度。token 將像大宗商品一樣細分層級:
- 免費層:高吞吐、低速度
- $3/百萬 token 層
- $6/百萬 token 層
- $45/百萬 token 層
- 高級層:$150/百萬 token
以 1GW 數據中心為例,每 25% 功率分配一個層級:Grace Blackwell 可比 Hopper 生成 5 倍收入,Vera Rubin 可再提升 5 倍。
Vera Rubin 系統架構
Vera Rubin 是英偉達新一代 AI 系統,核心特徵:
- 100% 液冷(45°C 熱水冷卻),所有線纜取消,安裝時間從兩天縮短至兩小時
- 第六代 NVLink scale-up 交換系統(非以太網、非 InfiniBand),完全液冷
- 全新 CPU:面向極高單線程性能、極高數據吞出、極致能效,採用 LPDDR5,世界上唯一使用 LPDDR5 的數據中心 CPU,獨立 CPU 業務已確定將成為數十億美元級業務
- 全新 Groq 系統(第三代 LP30 芯片,三星製造),已量產
- 全球首款 CPO(共封裝光學)Spectrum-X 交換機,已全面量產,與 TSMC 共同發明 COUPE 工藝
- BlueField-4 存儲平台(Vera CPU + CX9)
Vera Rubin 已在 Microsoft Azure 上線運行(第一個 rack),Satya Nadella 已確認。英偉達供應鏈已可每週生產數千套系統,每月數 GW 級 AI 工廠產能。
Rubin Ultra:144 GPU 在一個 NVLink 域內,採用全新 Kyber 機架,計算節點垂直插入,中板後方用 NVLink 交換機替代銅纜。
在 1GW 工廠中,兩年內 token 生成速率從 2,200 萬提升至 7 億,350 倍提升。
Groq 集成:disaggregated inference
英偉達收購了 Groq 團隊並授權其技術。Groq 是確定性數據流處理器,靜態編譯、編譯器調度、大量 SRAM,專為推理設計。
單顆 Groq 芯片 500MB SRAM vs 單顆 Rubin 芯片 288GB,Groq 單獨無法承載主流大模型的參數和 KV Cache。
解決方案是通過 Dynamo 軟件實現 disaggregated inference(分解推理):prefill 在 Vera Rubin 上完成,decode 的 attention 部分在 Vera Rubin 上完成(需大量數學運算),decode 的前饋網絡/token 生成部分 offload 到 Groq(需極低延遲、高帶寬)。兩者通過以太網緊密耦合(特殊模式將延遲降低約一半)。
效果:在最高價值層級上性能再提升 35 倍。如果大部分工作負載是高吞吐型,100% Vera Rubin 即可;如果有大量編碼等高價值 token 生成需求,建議 25% 數據中心配置 Groq + 75% Vera Rubin。
Groq LP30(三星製造)已量產,預計 Q3 發貨。
產品路線圖
- Blackwell/Rubin:Oberon 系統(標準機架),銅纜 scale-up(NVLink 72);光學 scale-up 擴展至 NVLink 576
- Rubin Ultra:Kyber 機架,銅纜 scale-up 至 NVLink 144
- 下一代 Rubin Ultra:新芯片 + LP35(首次集成 NVFP4 計算結構);Oberon + Spectrum-6 CPO
- Feynman(再下一代):全新 GPU + LP40(LPU)+ Rosa CPU(以 Rosalind 命名)+ BlueField-5 + CX10;Kyber 銅纜 scale-up + Kyber CPO scale-up(首次同時支持銅纜和 CPO scale-up)
每年一個全新架構。銅纜、光學、CPO 三種互聯方式都會持續投入。
AI 工廠與 DSX 平台
英偉達從芯片公司轉型為 AI 工廠/AI 基礎設施公司。新平台 NVIDIA DSX(基於 Omniverse)用於在虛擬環境中設計 GW 級 AI 工廠:機架的機械、熱、電氣、網絡仿真,與電網交互調節功率,數據中心內部用 Max-Q 動態調節系統功率和冷卻,目標是"不浪費一瓦功率"。黃仁勳認為這裏有"2 倍的優化空間"。
此外,英偉達宣佈 Vera Rubin Space-1,計劃將數據中心部署到太空(需解決輻射散熱問題,太空中無傳導和對流,僅有輻射)。
OpenClaw 代理革命
OpenClaw 是人類歷史上最受歡迎的開源項目,幾周內超越了 Linux 30 年的成就。黃仁勳將其類比為"代理計算機的操作系統"——就像 Windows 使個人電腦成為可能,OpenClaw 使"個人代理"成為可能。
OpenClaw 具備:資源管理、工具調用、文件系統訪問、LLM 連接、任務調度(cron jobs)、問題分解、sub-agent 調用、多模態 I/O。
每家公司都需要 OpenClaw 戰略,就像曾經需要 Linux 戰略、HTTP/HTML 戰略、Kubernetes 戰略一樣。每家 SaaS 公司將變成 GaaS 公司(Agent-as-a-Service)。
但代理系統在企業網絡中可以訪問敏感信息、執行代碼、對外通信——這需要企業級安全。英偉達與 OpenClaw 創始人 Peter Steinberger 合作推出NemoClaw(OpenClaw 的企業安全參考設計),集成 OpenShell 技術,包含網絡護欄(network guardrail)和隱私路由器(privacy router),可連接各 SaaS 公司的策略引擎。
黃仁勳預測:未來每個工程師將獲得年度 token 預算,可能是基本薪資的一半,用於 10 倍放大生產力。"你的 offer 包含多少 token?"正成為硅谷的招聘工具。
NVIDIA 開放模型計劃與 Nemotron Coalition
英偉達在每個 AI 模型領域均達到前沿:Nemotron(語言)、Cosmos(世界基礎模型)、GR00T(通用機器人)、Alpamayo(自動駕駛)、BioNeMo(數字生物學)、Earth-2(AI 物理)。
Nemotron-3 在 OpenClaw 中排名全球前三。Nemotron-3 Ultra 將成為最佳 base model,支持各國構建主權 AI。
宣佈Nemotron Coalition合作伙伴:Black Forest Labs(圖像)、Cursor(編程)、LangChain(代理框架,十億下載量)、Mistral、Perplexity、Reflection、Sarvam(印度)、Thinking Machines Lab(Mira Murati 的實驗室)。
物理 AI 與機器人
幾乎所有在造機器人的公司都在與英偉達合作。英偉達提供三台計算機:訓練計算機、合成數據生成與仿真計算機、機器人內置計算機。
自動駕駛:"自動駕駛的 ChatGPT 時刻已到來"。新增四家 robotaxi-ready 平台合作伙伴:比亞迪、現代、日產、吉利,合計年產 1,800 萬輛,加上此前的奔馳、豐田、通用。同時宣佈與 Uber 在多個城市部署 robotaxi。
工業機器人:ABB、Universal Robots、KUKA 等將英偉達物理 AI 模型集成到仿真系統中,部署到製造產線。
人形機器人:110 個機器人蔘展。Disney 的 Olaf 機器人現場演示——由 Jetson 驅動,在 Omniverse 中學習行走,使用 Newton 物理求解器(NVIDIA Warp + Disney + DeepMind 聯合開發)。
本文的風險披露與聲明:海豚君免責聲明及一般披露
