---
title: "英偉達的 “神秘芯片” 背後–推理時代開啓 “四大算力新趨勢”"
description: "英偉達將整合 LPU 技術推出全新推理芯片，OpenAI 重金跟進，標誌 AI 算力主戰場從訓練切換至推理。申萬宏源研究指出，推理時代正催生四大新趨勢：CPU 部署場景增多、LPU 專用架構崛起、國產芯片加速突破、算力需求從訓練轉向海量 Token 消耗。隨着芯片走向訓練與推理分工、系統向三層架構演進，高性價比推理芯片廠商將成最大受益者。"
type: "news"
locale: "zh-HK"
url: "https://longbridge.com/zh-HK/news/277352378.md"
published_at: "2026-03-01T11:33:17.000Z"
---

# 英偉達的 “神秘芯片” 背後–推理時代開啓 “四大算力新趨勢”

> 英偉達將整合 LPU 技術推出全新推理芯片，OpenAI 重金跟進，標誌 AI 算力主戰場從訓練切換至推理。申萬宏源研究指出，推理時代正催生四大新趨勢：CPU 部署場景增多、LPU 專用架構崛起、國產芯片加速突破、算力需求從訓練轉向海量 Token 消耗。隨着芯片走向訓練與推理分工、系統向三層架構演進，高性價比推理芯片廠商將成最大受益者。

英偉達整合 LPU（語言處理單元）技術、OpenAI 多線押注推理芯片，正在將 AI 算力競爭的主戰場從訓練切換至推理。申萬宏源研究認為，**2026 年算力產業的核心關鍵詞將是推理，Token 消耗總量與技術範式均將圍繞這一主題深度重構。**

2 月 28 日，據《華爾街日報》報道，英偉達計劃在下月的 GTC 開發者大會上發佈一款整合了 Groq“語言處理單元”（LPU）技術的全新推理芯片，**英偉達首席執行官黃仁勳稱其為 “世界從未見過” 的全新系統**。OpenAI 已同意成為該處理器的最大客户之一，並將向英偉達購買大規模 “專用推理產能”。

與此同時，OpenAI 上月還與初創公司 Cerebras 達成數十億美元計算合作，後者稱其推理芯片速度已超越英偉達 GPU（圖形處理器）。這一系列動向表明，**AI 巨頭正在從訓練算力的軍備競賽，轉向推理算力的多線佈局。**

申萬宏源報告指出，**Token 經濟時代，推理算力正迎來四大趨勢**：一是純 CPU（中央處理器）部署場景增多，低成本推理需求加速算力下沉；二是 LPU 等專用架構崛起，挑戰 GPU 在推理環節的主導地位；三是國產算力芯片加速突破，供應鏈多元化趨勢明確；四是推理算力的需求結構從 “單次訓練” 向 “海量 Token 消耗” 轉變，性價比成為核心競爭要素。

報告表示，**能夠提供充足、高性價比推理芯片的廠商將最為受益，而 CPU、LPU 及國產芯片的共同突破，正構成這一輪算力格局重塑的核心線索。**

## 推理需求全面爆發，Token 消耗創歷史新高

申萬宏源研究認為，**需求持續擴張的背後是兩大結構性驅動力：一是大模型貨幣化加速，Claude 等模型開始嚮應用端切入，發佈多款行業插件**；**二是 Agent 落地提速，openclaw、千問 Agent 等產品標誌着 Agent 正進入真實的工作與生產場景，而每一次模型調用和 Agent 任務執行，背後均需大量推理算力支撐。**

申萬宏源研究援引數據顯示，春節期間國內頭部大模型推理量大幅增長：豆包除夕當天推理吞吐量達 633 億 tokens，元寶月活躍用户達 1.14 億，千問 “春節大免單” 活動參與人數超 1.2 億。

全球 AI 模型 API 聚合平台 OpenRouter 的數據進一步揭示了這一趨勢的量級。2 月 9 日至 15 日當週，中國模型以 4.12 萬億 Token 的調用量首次超過美國模型的 2.94 萬億 Token；16 日至 22 日當週，中國模型調用量進一步衝高至 5.16 萬億 Token，三週大漲 127%，全球調用量前五的模型中中國佔據四席。

## LPU 成新貴，訓練與推理芯片走向分化

英偉達斥資 200 億美元獲取 Groq 核心技術許可，並在 “核心聘用” 交易中吸納了包括創始人 Jonathan Ross 在內的高管團隊。申萬宏源研究認為，**這一交易標誌着純推理芯片的重要性已獲得頂級玩家的正式認可。**

**LPU 與傳統 GPU 的架構差異，正是其在推理場景中具備效率優勢的根本原因。**AI 推理分為預填充和解碼兩個階段，大型模型的解碼過程尤其緩慢，而 LPU 針對延遲和內存帶寬這兩大推理瓶頸進行了專項優化。據華爾街見聞此前報道，英偉達即將發佈的新品可能涉及下一代 Feynman 架構，或採用更廣泛的 SRAM 集成方案，甚至通過 3D 堆疊技術將 LPU 深度整合其中。

申萬宏源研究據此判斷，未來 AI 芯片將形成明確的技術分工格局：**訓練端繼續沿用 GPU-HBM 組合，推理端則演進為 ASIC+LPU-SRAM+SSD 的組合方案。隨着算力需求從訓練向推理切換，專注推理芯片的廠商將迎來發展機遇。**

## 推理系統全面革新，CPU 與網絡需求同步提升

從單一芯片到系統層面的革新，是本輪推理算力升級的另一重要維度。申萬宏源研究指出，隨着應用場景從 chatbot 轉向 Agent，**算力系統對延遲、吞吐與思考深度的要求同時提升，推動系統架構向三層網絡演進。**

**第一層為快反應層**，由搭載 SRAM 的純推理芯片提供極致低延遲反饋；**第二層為慢思考層**，使用超大吞吐算力集羣負責複雜邏輯推演，多核多線程 CPU 在此層的需求將顯著增加；**第三層為記憶層**，對應英偉達發佈的 ContextMemory System，通過 Bluefield4 DPU 管理的 SSD 存儲 Agent 的長期記憶與 KV Cache。

英偉達在硬件層面也在調整策略。此前將 Vera CPU 與 Rubin GPU 捆綁部署的標準做法，在特定 AI 智能體工作負載下被證明成本過高。英偉達本月宣佈擴大與 Meta Platforms 的合作，完成首次大規模純 CPU 部署，以支持 Meta 的廣告定向 AI 智能體，標誌着公司正超越單一 GPU 銷售模式。

## 國產算力加速突破

申萬宏源研究認為，**國產推理芯片的技術升級值得重點關注**，且存在市場預期差。

在技術層面，**新一代國產推理芯片實現了多項根本性提升**：新增支持 FP8/MXFP8/MXFP4 等低精度數據格式，算力分別達到 1P 和 2P；大幅提升向量算力，採用支持 SIMD/SIMT 雙編程模型的新同構設計；互聯帶寬相比前代提升 2.5 倍，達到 2TB/s。

尤為值得關注的是，芯片層面實現了 PD 分離：通過自研兩種不同規格的 HBM，分別構成面向 Prefill 和推薦場景的 PR 版本，以及面向 Decode 和訓練場景的 DT 版本。其中 PR 版本採用低成本 HBM，可大幅降低推理 Prefill 階段的投資成本，預計於 2026 年 Q1 推出。

供應鏈層面，國產封測廠商的進展提供了佐證。根據某頭部封測企業首輪問詢答覆函，其 2.5D 封裝業務收入主要來自高性能計算芯片封裝服務，該項收入從 2022 年的 0.5 億元快速增長至 2024 年的 18.2 億元，**側面印證國產算力芯片供給能力持續提升，供應鏈國產化進程加快。**

### Related Stocks

- [NVDA.US - 英偉達](https://longbridge.com/zh-HK/quote/NVDA.US.md)
- [OpenAI.NA - OpenAI](https://longbridge.com/zh-HK/quote/OpenAI.NA.md)
- [NVDU.US - 2 倍做多英偉達 ETF - Direxion](https://longbridge.com/zh-HK/quote/NVDU.US.md)
- [XLK.US - 高科技指數 ETF - SPDR](https://longbridge.com/zh-HK/quote/XLK.US.md)
- [SOXX.US - 費城交易所 半導體 ETF - iShares](https://longbridge.com/zh-HK/quote/SOXX.US.md)
- [NVDX.US - 2 倍做多 NVDA ETF - T-Rex](https://longbridge.com/zh-HK/quote/NVDX.US.md)
- [NVDY.US - 英偉達期權收益策略 ETF - YieldMax](https://longbridge.com/zh-HK/quote/NVDY.US.md)
- [IGV.US - 北美科技軟件股指數 ETF - iShares](https://longbridge.com/zh-HK/quote/IGV.US.md)
- [SOXL.US - 半導體 3 倍做多 - Direxion](https://longbridge.com/zh-HK/quote/SOXL.US.md)
- [XSW.US - 標普軟件與服務 ETF - SPDR](https://longbridge.com/zh-HK/quote/XSW.US.md)

## Related News & Research

| Title | Description | URL |
|-------|-------------|-----|
| 'Keeping Its Lead in AI': Nvidia (NVDA) Develops New Chip Built for Faster Responses | Nvidia (NVDA) is set to unveil a new processor aimed at enhancing AI response times at its upcoming GTC developer confer | [Link](https://longbridge.com/zh-HK/news/277286693.md) |
| Nvidia Anticipates Global Shortage of Gaming Chips Until Year-End | Nvidia Anticipates Global Shortage of Gaming Chips Until Year-End | [Link](https://longbridge.com/zh-HK/news/277091419.md) |
| NVIDIA Advances Autonomous Networks With Agentic AI Blueprints and Telco Reasoning Models | NVIDIA is advancing autonomous networks for telecom operators, emphasizing the importance of AI-driven reasoning models  | [Link](https://longbridge.com/zh-HK/news/277341731.md) |
| Nvidia's earnings report dispels market doubts: record revenue, strong demand for computing power. | Nvidia reported Q4 fiscal 2026 revenue of $68.1 billion, surpassing expectations, with data center revenue at $62.3 bill | [Link](https://longbridge.com/zh-HK/news/276970538.md) |
| Nvidia still hasn't sold its U.S.-approved China AI chips — and it’s worried local AI rivals could take over | Nvidia has not yet sold its U.S.-approved AI chips to China, despite eased export restrictions. CFO Colette M. Kress exp | [Link](https://longbridge.com/zh-HK/news/277006343.md) |

---

> **免責聲明**：本文內容僅供參考，不構成任何投資建議。