---
title: "单卡推理吞吐 2300Tokens/s，升腾 AI 云服务正在改写算力法则"
type: "Topics"
locale: "zh-CN"
url: "https://longbridge.com/zh-CN/topics/31437024.md"
description: "半个月前的 HDC 2025 上，华为云全面上线了基于 CloudMatrix384 超节点的昇腾 AI 云服务，在行业内外掀起了不小的轰动。让我们印象最为深刻的是一组数据：与非超节点相比，CloudMatrix384 超节点的单卡吞吐量从 600Tokens/s 提升到了 2300Tokens/s；增量 Token 的输出时延，也从原来的 100ms 降低到了 50ms 以下..."
datetime: "2025-07-03T06:27:54.000Z"
locales:
  - [en](https://longbridge.com/en/topics/31437024.md)
  - [zh-CN](https://longbridge.com/zh-CN/topics/31437024.md)
  - [zh-HK](https://longbridge.com/zh-HK/topics/31437024.md)
author: "[Alter聊科技](https://longbridge.com/zh-CN/profiles/8644227.md)"
---

# 单卡推理吞吐 2300Tokens/s，升腾 AI 云服务正在改写算力法则

半个月前的 HDC 2025 上，华为云全面上线了基于 CloudMatrix384 超节点的升腾 AI 云服务，在行业内外掀起了不小的轰动。

让我们印象最为深刻的是一组数据：与非超节点相比，CloudMatrix384 超节点的单卡吞吐量从 600Tokens/s 提升到了 2300Tokens/s；增量 Token 的输出时延，也从原来的 100ms 降低到了 50ms 以下。

为了探究指标背后的技术密码，我们找到了华为联合硅基流动发表的一篇论文，详细介绍了 CloudMatrix 的架构创新和 CloudMatrix384 的生产级实践，并在测试结果中写道——**运行 DeepSeek-R1 时的单卡吞吐，已经超过英伟达 H100。**

在大模型的产业叙事从训练转向推理局面下，新一代升腾 AI 云服务刷新纪录的单卡吞吐能力，对整个算力行业意味着什么？

**01 怎么做到的？一场 “系统工程的胜利”**

需要回答的第一个问题是：单卡吞吐量近乎 4 倍的性能跃升，CloudMatrix384 超节点到底是怎么做到的？

答案在于工程创新。

为了提高大模型的推理性能，传统的做法集中在单点优化：增加更多的节点数量，通过堆叠算力来提升推理能力；对模型进行量化与剪枝，减少不必要的计算量；对 KV Cache 进行优化，加速增量推理；以及利用自动图优化工具将多个算子融合为一个高效核函数，减少中间内存拷贝……

可大模型的参数量仍在增长、MoE 架构被广泛采用、上下文长度急剧扩展，单点优化暴露出了越来越多的局限性：比如多卡并行推理的通信瓶颈、芯片与内存之间的耦合差、“整卡” 调度的资源浪费等等，无论是吞吐性能，还是推理成本，均已经满足不了快速增长的应用部署需求。

CloudMatrix384 超节点提出了新的设计架构，不同于简单的 “算力叠加”，进一步实现了一切可池化、一切皆对等、一切可组合。

理解了三个 “一切”，也就读懂了工程创新的价值。

**一切可池化**：通过统一的、超高性能的网络（MatrixLink），将 NPU、CPU、内存、网络等资源解耦，形成可独立扩展的资源池。

**一切皆对等**：有别于传统 GPU 为中心的计算范式，资源池里的所有资源不再是 “主从式” 关系，而是更高效、更灵活的对等架构。

**一切可组合**：意思是 CloudMatrix384 超节点池化的所有资源，可以根据不同的任务需求，像搭积木一样进行灵活调配组合。

用一句话来总结：CloudMatrix384 超节点将 384 颗升腾 NPU 和 192 颗鲲鹏 CPU 通过全新高速网络 MatrixLink 全对等互联，形成了一台拥有超大带宽、超大内存、超高算力的超级 “AI 服务器”。

之所以采用全对等互联的架构，目的是为了匹配大模型的训推任务，特别是 MoE 混合架构的大模型。

传统集群模式下进行推理，要在每张单卡上分配所有 “专家”，将所有问题都计算一遍，导致每个 “专家” 只能获得少量的计算和通信能力。

而一个 CloudMatrix384 超节点可以支持数百个专家并行推理，实现 “一卡一专家” 模式，即每张卡只部署一个 “专家”，集中处理所有相关问题，增加单次推理的批量大小，减少单位计算的调度开销，大幅提升推理效率。同时，超节点还可以支持 “一卡一算子任务”，灵活分配资源，提升任务并行处理，减少等待，将算力有效使用率（MFU）提升 50% 以上。

再比如大模型的推理过程分为 Prefill 和 Decode 两个阶段，Prefill 生成 KV Cache，Decode 使用和更新 KV Cache。CloudMatrix384 超节点的解耦式共享内存池，可以保存更多的 KV Cache，让 Prefill 和 Decode 任务更快、更均衡地访问 KV Cache，大幅降低系统延迟。

也就是说，2300Tokens/s 的单卡推理吞吐量和 50ms 以下的输出延迟，可以归结为一场 “系统工程的胜利”。**在摩尔定律逐渐放缓，单卡算力提升有限的背景下，通过重构计算互联架构，实现了整体系统级最优，完成了国产算力从 “能用” 到 “好用” 的跨越。**

# **02 改变了什么？大模型落地 “越过山丘”**

进入 2025 年后，大模型的角色快速蜕变，走出了实验室，在政务、金融、医疗、能源等领域加速落地。

但在落地过程中，响应慢、吞吐低、成本高等现实问题，成了不少企业在部署大模型时难以绕开的 “瓶颈”，不仅拖慢了业务节奏，还拉高了技术回报的门槛。如果说 “训得好” 是一场军备竞赛，“用得起” 则是产业拐点。

华为在工程创新上的 “弯道超车”，为大模型落地部署的挑战，提供了一种经过验证的解题范式。

先从大模型训练来看。

万亿、十万亿参数的大模型训练任务，催生了万卡乃至十万卡的集群需求，也带来了算力紧缺的 “危机”。

一个乐观的消息在于，在云数据中心，CloudMatrix384 超节点最高可以将 432 个超节点级联成 16 万卡的超大集群，提供 10 万 PFlops 的算力。其中一个关键指标是线性度，即节点数量增加后，性能是否能 “按比例提升”。**目前 CloudMatrix384 万卡集群的线性度已经超过 95%，实现了性能提升与资源扩展的比例接近 1:1，可同时支持 1300 个千亿参数大模型训练。**

为了帮助客户最优使用资源，CloudMatrix384 超节点升腾 AI 云服务还支持训推算力一体部署，比如 “日推夜训” 模式，白天推理，晚上训练；以及 “40 天长稳训练、10 分钟快速恢复” 能力，保障长周期训练的稳定性和中断后的快速恢复。

更深刻的影响在于推理层面。

正如前面所提到的，CloudMatrix384 超节点的单卡吞吐量提升到了 2300Tokens/s，一同被改变的还有推理成本。

根据一位知乎网友的方式推算：单卡吞吐量 2300Tokens/s，每小时可以产出 828 万 Token，每小时租金按照 15 元计算，百万 Token 的成本约为 1.8 元，推理成本比英伟达的 GPU 方案还要低。

在大模型推理领域，有一个著名的 “不可能三角”——推理成本低、响应速度快、输出准确性高几乎不可能同时满足。

CloudMatrix384 超节点给出了否定的答案，以 DeepSeek-R1 为例，有 256 个固定专家、32 个共享专家，CloudMatrix384 超节点的 “一卡一专家” 模式完美契合了 DeepSeek-R1 的推理需求，保障推理性能的同时，仍可以实现高吞吐、低时延的目标。

**在 “推理成本决定最终胜利” 的大模型竞赛中，CloudMatrix384 超节点可以说是现阶段的 “最优解”，在技术上攻克了响应速度、吞吐能力与输出准确性的三重矛盾，为千行万业搬开了大模型落地的 “大山”。**

可以佐证的案例有很多。

新浪基于 CloudMatrix384 升腾 AI 云服务，为 “智慧小浪” 智能服务体系构建了统一的推理平台，推理的交付效率提升超过 50%。

面壁智能使用 CloudMatrix384 升腾 AI 云服务，让 “小钢炮” 模型的推理业务性能得到了 2.7 倍的提升。

360 正在开启与升腾 AI 云服务的全面合作，纳米 AI 搜索已经实现了上百款大模型的高效协作，为用户提供超级 AI 搜索服务。

# **03 写在最后**

巴克莱银行曾在 2025 年初的研报中表示：AI 推理计算需求将快速提升，预计将占到通用人工智能总计算需求的 70% 以上，推理计算的需求甚至将大幅超过训练，达到后者的 4.5 倍。

谁解决了推理效率，谁就掌握了大模型落地的主导权。

由此再来审视 CloudMatrix384 超节点升腾 AI 云服务，不仅仅是技术指标的跃升，而是系统级工程创新的深度验证，重新定义了未来的算力范式：“芯片性能” 不再是唯一的衡量尺度，以 “整体系统效率”“推理成本”“模型结构适配性” 构建新的竞争标准，为整个 AI 产业打开了一条更加高效、普惠、可持续的技术道路。

截止到目前，基于 CloudMatrix384 超节点的升腾 AI 云服务已经在芜湖、贵安、乌兰察布、和林格尔等地的华为云数据中心上线，依托百 TB 级带宽的光纤骨干网，10 毫秒时延圈覆盖了全国 19 个城市群。正在通过工程创新的胜利，承接大模型时代的产业落点。