--- title: "單卡推理吞吐 2300Tokens/s,升騰 AI 雲服務正在改寫算力法則" type: "Topics" locale: "zh-HK" url: "https://longbridge.com/zh-HK/topics/31437024.md" description: "半個月前的 HDC 2025 上,華為雲全面上線了基於 CloudMatrix384 超節點的昇騰 AI 雲服務,在行業內外掀起了不小的轟動。讓我們印象最為深刻的是一組數據:與非超節點相比,CloudMatrix384 超節點的單卡吞吐量從 600Tokens/s 提升到了 2300Tokens/s;增量 Token 的輸出時延,也從原來的 100ms 降低到了 50ms 以下..." datetime: "2025-07-03T06:27:54.000Z" locales: - [en](https://longbridge.com/en/topics/31437024.md) - [zh-CN](https://longbridge.com/zh-CN/topics/31437024.md) - [zh-HK](https://longbridge.com/zh-HK/topics/31437024.md) author: "[Alter聊科技](https://longbridge.com/zh-HK/profiles/8644227.md)" --- # 單卡推理吞吐 2300Tokens/s,升騰 AI 雲服務正在改寫算力法則 半個月前的 HDC 2025 上,華為雲全面上線了基於 CloudMatrix384 超節點的昇騰 AI 雲服務,在行業內外掀起了不小的轟動。 讓我們印象最為深刻的是一組數據:與非超節點相比,CloudMatrix384 超節點的單卡吞吐量從 600Tokens/s 提升到了 2300Tokens/s;增量 Token 的輸出時延,也從原來的 100ms 降低到了 50ms 以下。 為了探究指標背後的技術密碼,我們找到了華為聯合硅基流動發表的一篇論文,詳細介紹了 CloudMatrix 的架構創新和 CloudMatrix384 的生產級實踐,並在測試結果中寫道——**運行 DeepSeek-R1 時的單卡吞吐,已經超過英偉達 H100。** 在大模型的產業敍事從訓練轉向推理局面下,新一代昇騰 AI 雲服務刷新紀錄的單卡吞吐能力,對整個算力行業意味着什麼? **01 怎麼做到的?一場 “系統工程的勝利”** 需要回答的第一個問題是:單卡吞吐量近乎 4 倍的性能躍升,CloudMatrix384 超節點到底是怎麼做到的? 答案在於工程創新。 為了提高大模型的推理性能,傳統的做法集中在單點優化:增加更多的節點數量,通過堆疊算力來提升推理能力;對模型進行量化與剪枝,減少不必要的計算量;對 KV Cache 進行優化,加速增量推理;以及利用自動圖優化工具將多個算子融合為一個高效核函數,減少中間內存拷貝…… 可大模型的參數量仍在增長、MoE 架構被廣泛採用、上下文長度急劇擴展,單點優化暴露出了越來越多的侷限性:比如多卡並行推理的通信瓶頸、芯片與內存之間的耦合差、“整卡” 調度的資源浪費等等,無論是吞吐性能,還是推理成本,均已經滿足不了快速增長的應用部署需求。 CloudMatrix384 超節點提出了新的設計架構,不同於簡單的 “算力疊加”,進一步實現了一切可池化、一切皆對等、一切可組合。 理解了三個 “一切”,也就讀懂了工程創新的價值。 **一切可池化**:通過統一的、超高性能的網絡(MatrixLink),將 NPU、CPU、內存、網絡等資源解耦,形成可獨立擴展的資源池。 **一切皆對等**:有別於傳統 GPU 為中心的計算範式,資源池裏的所有資源不再是 “主從式” 關係,而是更高效、更靈活的對等架構。 **一切可組合**:意思是 CloudMatrix384 超節點池化的所有資源,可以根據不同的任務需求,像搭積木一樣進行靈活調配組合。 用一句話來總結:CloudMatrix384 超節點將 384 顆昇騰 NPU 和 192 顆鯤鵬 CPU 通過全新高速網絡 MatrixLink 全對等互聯,形成了一台擁有超大帶寬、超大內存、超高算力的超級 “AI 服務器”。 之所以採用全對等互聯的架構,目的是為了匹配大模型的訓推任務,特別是 MoE 混合架構的大模型。 傳統集羣模式下進行推理,要在每張單卡上分配所有 “專家”,將所有問題都計算一遍,導致每個 “專家” 只能獲得少量的計算和通信能力。 而一個 CloudMatrix384 超節點可以支持數百個專家並行推理,實現 “一卡一專家” 模式,即每張卡只部署一個 “專家”,集中處理所有相關問題,增加單次推理的批量大小,減少單位計算的調度開銷,大幅提升推理效率。同時,超節點還可以支持 “一卡一算子任務”,靈活分配資源,提升任務並行處理,減少等待,將算力有效使用率(MFU)提升 50% 以上。 再比如大模型的推理過程分為 Prefill 和 Decode 兩個階段,Prefill 生成 KV Cache,Decode 使用和更新 KV Cache。CloudMatrix384 超節點的解耦式共享內存池,可以保存更多的 KV Cache,讓 Prefill 和 Decode 任務更快、更均衡地訪問 KV Cache,大幅降低系統延遲。 也就是説,2300Tokens/s 的單卡推理吞吐量和 50ms 以下的輸出延遲,可以歸結為一場 “系統工程的勝利”。**在摩爾定律逐漸放緩,單卡算力提升有限的背景下,通過重構計算互聯架構,實現了整體系統級最優,完成了國產算力從 “能用” 到 “好用” 的跨越。** # **02 改變了什麼?大模型落地 “越過山丘”** 進入 2025 年後,大模型的角色快速蜕變,走出了實驗室,在政務、金融、醫療、能源等領域加速落地。 但在落地過程中,響應慢、吞吐低、成本高等現實問題,成了不少企業在部署大模型時難以繞開的 “瓶頸”,不僅拖慢了業務節奏,還拉高了技術回報的門檻。如果説 “訓得好” 是一場軍備競賽,“用得起” 則是產業拐點。 華為在工程創新上的 “彎道超車”,為大模型落地部署的挑戰,提供了一種經過驗證的解題範式。 先從大模型訓練來看。 萬億、十萬億參數的大模型訓練任務,催生了萬卡乃至十萬卡的集羣需求,也帶來了算力緊缺的 “危機”。 一個樂觀的消息在於,在雲數據中心,CloudMatrix384 超節點最高可以將 432 個超節點級聯成 16 萬卡的超大集羣,提供 10 萬 PFlops 的算力。其中一個關鍵指標是線性度,即節點數量增加後,性能是否能 “按比例提升”。**目前 CloudMatrix384 萬卡集羣的線性度已經超過 95%,實現了性能提升與資源擴展的比例接近 1:1,可同時支持 1300 個千億參數大模型訓練。** 為了幫助客户最優使用資源,CloudMatrix384 超節點昇騰 AI 雲服務還支持訓推算力一體部署,比如 “日推夜訓” 模式,白天推理,晚上訓練;以及 “40 天長穩訓練、10 分鐘快速恢復” 能力,保障長週期訓練的穩定性和中斷後的快速恢復。 更深刻的影響在於推理層面。 正如前面所提到的,CloudMatrix384 超節點的單卡吞吐量提升到了 2300Tokens/s,一同被改變的還有推理成本。 根據一位知乎網友的方式推算:單卡吞吐量 2300Tokens/s,每小時可以產出 828 萬 Token,每小時租金按照 15 元計算,百萬 Token 的成本約為 1.8 元,推理成本比英偉達的 GPU 方案還要低。 在大模型推理領域,有一個著名的 “不可能三角”——推理成本低、響應速度快、輸出準確性高几乎不可能同時滿足。 CloudMatrix384 超節點給出了否定的答案,以 DeepSeek-R1 為例,有 256 個固定專家、32 個共享專家,CloudMatrix384 超節點的 “一卡一專家” 模式完美契合了 DeepSeek-R1 的推理需求,保障推理性能的同時,仍可以實現高吞吐、低時延的目標。 **在 “推理成本決定最終勝利” 的大模型競賽中,CloudMatrix384 超節點可以説是現階段的 “最優解”,在技術上攻克了響應速度、吞吐能力與輸出準確性的三重矛盾,為千行萬業搬開了大模型落地的 “大山”。** 可以佐證的案例有很多。 新浪基於 CloudMatrix384 昇騰 AI 雲服務,為 “智慧小浪” 智能服務體系構建了統一的推理平台,推理的交付效率提升超過 50%。 面壁智能使用 CloudMatrix384 昇騰 AI 雲服務,讓 “小鋼炮” 模型的推理業務性能得到了 2.7 倍的提升。 360 正在開啓與昇騰 AI 雲服務的全面合作,納米 AI 搜索已經實現了上百款大模型的高效協作,為用户提供超級 AI 搜索服務。 # **03 寫在最後** 巴克萊銀行曾在 2025 年初的研報中表示:AI 推理計算需求將快速提升,預計將佔到通用人工智能總計算需求的 70% 以上,推理計算的需求甚至將大幅超過訓練,達到後者的 4.5 倍。 誰解決了推理效率,誰就掌握了大模型落地的主導權。 由此再來審視 CloudMatrix384 超節點昇騰 AI 雲服務,不僅僅是技術指標的躍升,而是系統級工程創新的深度驗證,重新定義了未來的算力範式:“芯片性能” 不再是唯一的衡量尺度,以 “整體系統效率”“推理成本”“模型結構適配性” 構建新的競爭標準,為整個 AI 產業打開了一條更加高效、普惠、可持續的技術道路。 截止到目前,基於 CloudMatrix384 超節點的昇騰 AI 雲服務已經在蕪湖、貴安、烏蘭察布、和林格爾等地的華為雲數據中心上線,依託百 TB 級帶寬的光纖骨幹網,10 毫秒時延圈覆蓋了全國 19 個城市羣。正在通過工程創新的勝利,承接大模型時代的產業落點。