--- type: "Topics" locale: "zh-HK" url: "https://longbridge.com/zh-HK/topics/37933288.md" description: "AI 推理都落地了,卻還是有的 99% 算力在空轉?我們之前的文章裏提到了一個核心癥結: “內存牆”—— 數據傳輸速度遠跟不上算力增長,GPU 等着數據 “投餵” 的時間,比實際計算時間多幾百倍。比如生成一個 Token,計算僅需 10 微秒,加載數據卻要 9 毫秒,大部分時間都在 “等材料”。解決這個問題分兩步走,短期見效快,中長期靠技術根治。短期靠 “提速 + 縮距” 組合拳:一方面給 HBM(GPU 專用顯存)升級,從 12-Hi 堆疊提到 16-Hi,帶寬衝到 16-32TB/s,讓數據傳輸 “提速加寬”;另一方面搭配 3D 堆疊 SRAM,把高頻數據直接放在 GPU 旁邊,傳輸延遲從 100ns 壓到 2ns,兩者分工 ——SRAM 負責 “快傳”,HBM 負責 “多存”。英偉達收購 Groq 就是為了 SRAM 技術,2026 年下半年的 Rubin 芯片會融入這項技術,直接提升存力速度。中長期則靠存算一體技術,把部分算力嵌進存儲裏,數據不用來回搬運,在存儲中就能完成計算,從根源消除 “內存牆”。不過這項技術目前還沒在數據中心落地,預計 2027 年後逐步推廣。隨着 HBM4 2026 年量產、SRAM 技術商用,再加上後續存算一體落地,99% 算力閒置的問題才可能會逐步緩解,讓 AI 推理真正 “滿負荷幹活”。" datetime: "2026-01-20T06:35:22.000Z" locales: - [en](https://longbridge.com/en/topics/37933288.md) - [zh-CN](https://longbridge.com/zh-CN/topics/37933288.md) - [zh-HK](https://longbridge.com/zh-HK/topics/37933288.md) author: "[海豚研究](https://longbridge.com/zh-HK/news/dolphin.md)" --- > 支持的語言: [English](https://longbridge.com/en/topics/37933288.md) | [简体中文](https://longbridge.com/zh-CN/topics/37933288.md) # AI 推理都落地了,卻還是有的 99% 算力在空轉?我們之前的文章裏提到了一個核心癥結: “內存牆”… ### 相關股票 - [英偉達 (NVDA.US)](https://longbridge.com/zh-HK/quote/NVDA.US.md) ## 評論 (6) - **方圆9269 · 2026-01-20T19:24:27.000Z · 👍 1**: 技術貼!特靠譜! - **HIC · 2026-01-20T11:29:11.000Z · 👍 1**: 好文章,學習了 - **珠穆朗玛8848 · 2026-01-20T08:12:10.000Z · 👍 1**: 簡明扼要地科普了推理加速的存力掣肘 - **海豚研究** (2026-01-21T02:22:47.000Z): 💪🏻💪🏻 - **洒家特地来赚刀乐 · 2026-01-20T06:40:34.000Z · 👍 3**: 內存牆還有 IO 牆,數據傳輸的速度比較慢,光電轉換要幾次 - **海豚研究** (2026-01-20T07:21:23.000Z): 是的,HBM4 量產、Rubin 架構搭載更多高速存儲後有望緩解