AI 推理都落地了，却还是有的 99% 算力在空转？我们之前的文章里提到了一个核心症结： “内存墙”

发现

资讯

2026.01.20 06:35

AI 推理都落地了，却还是有的 99% 算力在空转？我们之前的文章里提到了一个核心症结： “内存墙”—— 数据传输速度远跟不上算力增长，GPU 等着数据 “投喂” 的时间，比实际计算时间多几百倍。比如生成一个 Token，计算仅需 10 微秒，加载数据却要 9 毫秒，大部分时间都在 “等材料”。

解决这个问题分两步走，短期见效快，中长期靠技术根治。

短期靠 “提速 + 缩距” 组合拳：一方面给 HBM（GPU 专用显存）升级，从 12-Hi 堆叠提到 16-Hi，带宽冲到 16-32TB/s，让数据传输 “提速加宽”；另一方面搭配 3D 堆叠 SRAM，把高频数据直接放在 GPU 旁边，传输延迟从 100ns 压到 2ns，两者分工 ——SRAM 负责 “快传”，HBM 负责 “多存”。英伟达收购 Groq 就是为了 SRAM 技术，2026 年下半年的 Rubin 芯片会融入这项技术，直接提升存力速度。

中长期则靠存算一体技术，把部分算力嵌进存储里，数据不用来回搬运，在存储中就能完成计算，从根源消除 “内存墙”。不过这项技术目前还没在数据中心落地，预计 2027 年后逐步推广。

随着 HBM4 2026 年量产、SRAM 技术商用，再加上后续存算一体落地，99% 算力闲置的问题才可能会逐步缓解，让 AI 推理真正 “满负荷干活”。

本文版权归属原作者/机构所有。

当前内容仅代表作者观点，与本平台立场无关。内容仅供投资者参考，亦不构成任何投资建议。如对本平台提供的内容服务有任何疑问或建议，请联系我们。

Latest Topics Other Topics Other Topics Quote List News List Dolphin List