---
title: "單卡推理吞吐 2300Tokens/s，升騰 AI 雲服務正在改寫算力法則"
type: "Topics"
locale: "zh-HK"
url: "https://longbridge.com/zh-HK/topics/31437024.md"
description: "半個月前的 HDC 2025 上，華為雲全面上線了基於 CloudMatrix384 超節點的昇騰 AI 雲服務，在行業內外掀起了不小的轟動。讓我們印象最為深刻的是一組數據：與非超節點相比，CloudMatrix384 超節點的單卡吞吐量從 600Tokens/s 提升到了 2300Tokens/s；增量 Token 的輸出時延，也從原來的 100ms 降低到了 50ms 以下..."
datetime: "2025-07-03T06:27:54.000Z"
locales:
  - [en](https://longbridge.com/en/topics/31437024.md)
  - [zh-CN](https://longbridge.com/zh-CN/topics/31437024.md)
  - [zh-HK](https://longbridge.com/zh-HK/topics/31437024.md)
author: "[Alter聊科技](https://longbridge.com/zh-HK/profiles/8644227.md)"
---

# 單卡推理吞吐 2300Tokens/s，升騰 AI 雲服務正在改寫算力法則

半個月前的 HDC 2025 上，華為雲全面上線了基於 CloudMatrix384 超節點的昇騰 AI 雲服務，在行業內外掀起了不小的轟動。

讓我們印象最為深刻的是一組數據：與非超節點相比，CloudMatrix384 超節點的單卡吞吐量從 600Tokens/s 提升到了 2300Tokens/s；增量 Token 的輸出時延，也從原來的 100ms 降低到了 50ms 以下。

為了探究指標背後的技術密碼，我們找到了華為聯合硅基流動發表的一篇論文，詳細介紹了 CloudMatrix 的架構創新和 CloudMatrix384 的生產級實踐，並在測試結果中寫道——**運行 DeepSeek-R1 時的單卡吞吐，已經超過英偉達 H100。**

在大模型的產業敍事從訓練轉向推理局面下，新一代昇騰 AI 雲服務刷新紀錄的單卡吞吐能力，對整個算力行業意味着什麼？

**01 怎麼做到的？一場 “系統工程的勝利”**

需要回答的第一個問題是：單卡吞吐量近乎 4 倍的性能躍升，CloudMatrix384 超節點到底是怎麼做到的？

答案在於工程創新。

為了提高大模型的推理性能，傳統的做法集中在單點優化：增加更多的節點數量，通過堆疊算力來提升推理能力；對模型進行量化與剪枝，減少不必要的計算量；對 KV Cache 進行優化，加速增量推理；以及利用自動圖優化工具將多個算子融合為一個高效核函數，減少中間內存拷貝……

可大模型的參數量仍在增長、MoE 架構被廣泛採用、上下文長度急劇擴展，單點優化暴露出了越來越多的侷限性：比如多卡並行推理的通信瓶頸、芯片與內存之間的耦合差、“整卡” 調度的資源浪費等等，無論是吞吐性能，還是推理成本，均已經滿足不了快速增長的應用部署需求。

CloudMatrix384 超節點提出了新的設計架構，不同於簡單的 “算力疊加”，進一步實現了一切可池化、一切皆對等、一切可組合。

理解了三個 “一切”，也就讀懂了工程創新的價值。

**一切可池化**：通過統一的、超高性能的網絡（MatrixLink），將 NPU、CPU、內存、網絡等資源解耦，形成可獨立擴展的資源池。

**一切皆對等**：有別於傳統 GPU 為中心的計算範式，資源池裏的所有資源不再是 “主從式” 關係，而是更高效、更靈活的對等架構。

**一切可組合**：意思是 CloudMatrix384 超節點池化的所有資源，可以根據不同的任務需求，像搭積木一樣進行靈活調配組合。

用一句話來總結：CloudMatrix384 超節點將 384 顆昇騰 NPU 和 192 顆鯤鵬 CPU 通過全新高速網絡 MatrixLink 全對等互聯，形成了一台擁有超大帶寬、超大內存、超高算力的超級 “AI 服務器”。

之所以採用全對等互聯的架構，目的是為了匹配大模型的訓推任務，特別是 MoE 混合架構的大模型。

傳統集羣模式下進行推理，要在每張單卡上分配所有 “專家”，將所有問題都計算一遍，導致每個 “專家” 只能獲得少量的計算和通信能力。

而一個 CloudMatrix384 超節點可以支持數百個專家並行推理，實現 “一卡一專家” 模式，即每張卡只部署一個 “專家”，集中處理所有相關問題，增加單次推理的批量大小，減少單位計算的調度開銷，大幅提升推理效率。同時，超節點還可以支持 “一卡一算子任務”，靈活分配資源，提升任務並行處理，減少等待，將算力有效使用率（MFU）提升 50% 以上。

再比如大模型的推理過程分為 Prefill 和 Decode 兩個階段，Prefill 生成 KV Cache，Decode 使用和更新 KV Cache。CloudMatrix384 超節點的解耦式共享內存池，可以保存更多的 KV Cache，讓 Prefill 和 Decode 任務更快、更均衡地訪問 KV Cache，大幅降低系統延遲。

也就是説，2300Tokens/s 的單卡推理吞吐量和 50ms 以下的輸出延遲，可以歸結為一場 “系統工程的勝利”。**在摩爾定律逐漸放緩，單卡算力提升有限的背景下，通過重構計算互聯架構，實現了整體系統級最優，完成了國產算力從 “能用” 到 “好用” 的跨越。**

# **02 改變了什麼？大模型落地 “越過山丘”**

進入 2025 年後，大模型的角色快速蜕變，走出了實驗室，在政務、金融、醫療、能源等領域加速落地。

但在落地過程中，響應慢、吞吐低、成本高等現實問題，成了不少企業在部署大模型時難以繞開的 “瓶頸”，不僅拖慢了業務節奏，還拉高了技術回報的門檻。如果説 “訓得好” 是一場軍備競賽，“用得起” 則是產業拐點。

華為在工程創新上的 “彎道超車”，為大模型落地部署的挑戰，提供了一種經過驗證的解題範式。

先從大模型訓練來看。

萬億、十萬億參數的大模型訓練任務，催生了萬卡乃至十萬卡的集羣需求，也帶來了算力緊缺的 “危機”。

一個樂觀的消息在於，在雲數據中心，CloudMatrix384 超節點最高可以將 432 個超節點級聯成 16 萬卡的超大集羣，提供 10 萬 PFlops 的算力。其中一個關鍵指標是線性度，即節點數量增加後，性能是否能 “按比例提升”。**目前 CloudMatrix384 萬卡集羣的線性度已經超過 95%，實現了性能提升與資源擴展的比例接近 1:1，可同時支持 1300 個千億參數大模型訓練。**

為了幫助客户最優使用資源，CloudMatrix384 超節點昇騰 AI 雲服務還支持訓推算力一體部署，比如 “日推夜訓” 模式，白天推理，晚上訓練；以及 “40 天長穩訓練、10 分鐘快速恢復” 能力，保障長週期訓練的穩定性和中斷後的快速恢復。

更深刻的影響在於推理層面。

正如前面所提到的，CloudMatrix384 超節點的單卡吞吐量提升到了 2300Tokens/s，一同被改變的還有推理成本。

根據一位知乎網友的方式推算：單卡吞吐量 2300Tokens/s，每小時可以產出 828 萬 Token，每小時租金按照 15 元計算，百萬 Token 的成本約為 1.8 元，推理成本比英偉達的 GPU 方案還要低。

在大模型推理領域，有一個著名的 “不可能三角”——推理成本低、響應速度快、輸出準確性高几乎不可能同時滿足。

CloudMatrix384 超節點給出了否定的答案，以 DeepSeek-R1 為例，有 256 個固定專家、32 個共享專家，CloudMatrix384 超節點的 “一卡一專家” 模式完美契合了 DeepSeek-R1 的推理需求，保障推理性能的同時，仍可以實現高吞吐、低時延的目標。

**在 “推理成本決定最終勝利” 的大模型競賽中，CloudMatrix384 超節點可以説是現階段的 “最優解”，在技術上攻克了響應速度、吞吐能力與輸出準確性的三重矛盾，為千行萬業搬開了大模型落地的 “大山”。**

可以佐證的案例有很多。

新浪基於 CloudMatrix384 昇騰 AI 雲服務，為 “智慧小浪” 智能服務體系構建了統一的推理平台，推理的交付效率提升超過 50%。

面壁智能使用 CloudMatrix384 昇騰 AI 雲服務，讓 “小鋼炮” 模型的推理業務性能得到了 2.7 倍的提升。

360 正在開啓與昇騰 AI 雲服務的全面合作，納米 AI 搜索已經實現了上百款大模型的高效協作，為用户提供超級 AI 搜索服務。

# **03 寫在最後**

巴克萊銀行曾在 2025 年初的研報中表示：AI 推理計算需求將快速提升，預計將佔到通用人工智能總計算需求的 70% 以上，推理計算的需求甚至將大幅超過訓練，達到後者的 4.5 倍。

誰解決了推理效率，誰就掌握了大模型落地的主導權。

由此再來審視 CloudMatrix384 超節點昇騰 AI 雲服務，不僅僅是技術指標的躍升，而是系統級工程創新的深度驗證，重新定義了未來的算力範式：“芯片性能” 不再是唯一的衡量尺度，以 “整體系統效率”“推理成本”“模型結構適配性” 構建新的競爭標準，為整個 AI 產業打開了一條更加高效、普惠、可持續的技術道路。

截止到目前，基於 CloudMatrix384 超節點的昇騰 AI 雲服務已經在蕪湖、貴安、烏蘭察布、和林格爾等地的華為雲數據中心上線，依託百 TB 級帶寬的光纖骨幹網，10 毫秒時延圈覆蓋了全國 19 個城市羣。正在通過工程創新的勝利，承接大模型時代的產業落點。