---
type: "Topics"
locale: "zh-CN"
url: "https://longbridge.com/zh-CN/topics/37933288.md"
description: "AI 推理都落地了，却还是有的 99% 算力在空转？我们之前的文章里提到了一个核心症结： “内存墙”—— 数据传输速度远跟不上算力增长，GPU 等着数据 “投喂” 的时间，比实际计算时间多几百倍。比如生成一个 Token，计算仅需 10 微秒，加载数据却要 9 毫秒，大部分时间都在 “等材料”。解决这个问题分两步走，短期见效快，中长期靠技术根治。短期靠 “提速 + 缩距” 组合拳：一方面给 HBM（GPU 专用显存）升级，从 12-Hi 堆叠提到 16-Hi，带宽冲到 16-32TB/s，让数据传输 “提速加宽”；另一方面搭配 3D 堆叠 SRAM，把高频数据直接放在 GPU 旁边，传输延迟从 100ns 压到 2ns，两者分工 ——SRAM 负责 “快传”，HBM 负责 “多存”。英伟达收购 Groq 就是为了 SRAM 技术，2026 年下半年的 Rubin 芯片会融入这项技术，直接提升存力速度。中长期则靠存算一体技术，把部分算力嵌进存储里，数据不用来回搬运，在存储中就能完成计算，从根源消除 “内存墙”。不过这项技术目前还没在数据中心落地，预计 2027 年后逐步推广。随着 HBM4 2026 年量产、SRAM 技术商用，再加上后续存算一体落地，99% 算力闲置的问题才可能会逐步缓解，让 AI 推理真正 “满负荷干活”。"
datetime: "2026-01-20T06:35:22.000Z"
locales:
  - [en](https://longbridge.com/en/topics/37933288.md)
  - [zh-CN](https://longbridge.com/zh-CN/topics/37933288.md)
  - [zh-HK](https://longbridge.com/zh-HK/topics/37933288.md)
author: "[海豚研究](https://longbridge.com/zh-CN/news/dolphin.md)"
---

> 支持的语言: [English](https://longbridge.com/en/topics/37933288.md) | [繁體中文](https://longbridge.com/zh-HK/topics/37933288.md)


# AI 推理都落地了，却还是有的 99% 算力在空转？我们之前的文章里提到了一个核心症结： “内存墙”…


### 相关股票

- [英伟达 (NVDA.US)](https://longbridge.com/zh-CN/quote/NVDA.US.md)

## 评论 (6)

- **方圆9269 · 2026-01-20T19:24:27.000Z · 👍 1**: 技术贴！特靠谱！
- **HIC · 2026-01-20T11:29:11.000Z · 👍 1**: 好文章，学习了
- **珠穆朗玛8848 · 2026-01-20T08:12:10.000Z · 👍 1**: 简明扼要地科普了推理加速的存力掣肘
  - **海豚研究** (2026-01-21T02:22:47.000Z): 💪🏻💪🏻
- **洒家特地来赚刀乐 · 2026-01-20T06:40:34.000Z · 👍 3**: 内存墙还有 IO 墙，数据传输的速度比较慢，光电转换要几次
  - **海豚研究** (2026-01-20T07:21:23.000Z): 是的，HBM4 量产、Rubin 架构搭载更多高速存储后有望缓解