--- title: "開啓存儲下一個大機會!韓媒詳解黃仁勳 “神秘推理上下文內存平台”" description: "英偉達在 CES 上發佈 “推理上下文內存平台”(ICMS),將 AI 硬件重心轉向高效存儲。 它通過 DPU 管理大容量 SSD,解決了 AI 推理中激增的 “KV 緩存” 需求,使 NAND 閃存/SSD 成為核心計算部件。這直接激活了企業級存儲市場,為三星、SK 海力士等頭部廠商帶來巨大新訂單,開啓行業新週期。" type: "news" locale: "zh-HK" url: "https://longbridge.com/zh-HK/news/273601443.md" published_at: "2026-01-25T05:28:05.000Z" --- # 開啓存儲下一個大機會!韓媒詳解黃仁勳 “神秘推理上下文內存平台” > 英偉達在 CES 上發佈 “推理上下文內存平台”(ICMS),將 AI 硬件重心轉向高效存儲。 它通過 DPU 管理大容量 SSD,解決了 AI 推理中激增的 “KV 緩存” 需求,使 NAND 閃存/SSD 成為核心計算部件。這直接激活了企業級存儲市場,為三星、SK 海力士等頭部廠商帶來巨大新訂單,開啓行業新週期。 在 1 月 5 日的 2026 年國際消費電子展(CES)上,英偉達首席執行官黃仁勳發佈了名為 “推理上下文內存平台”(ICMS)的全新硬件,旨在解決人工智能推理階段爆炸式增長的數據存儲需求。此舉標誌着 AI 硬件架構的重心正從單純的算力堆疊向高效的上下文存儲轉移,**NAND 閃存和 SSD 有望接棒 HBM,成為下一個關鍵的增長引擎。** 《韓國經濟日報》在 1 月 24 日的文章中介紹,黃仁勳在演講中展示了一個被稱為 “推理上下文內存平台”(Inference Context Memory Platform,簡稱 ICMS)的神秘黑色機架。這並非普通的硬件更新,而是一個旨在解決人工智能推理階段數據瓶頸的關鍵創新。記者敏鋭地捕捉到,這可能是繼 HBM(高帶寬內存)之後,存儲行業的下一個爆發點。 這一平台的核心邏輯在於解決 AI 推理中的 “KV 緩存”(鍵值緩存)問題。隨着 AI 從單純的學習階段轉向大規模推理應用,數據量呈爆炸式增長,現有的 GPU 顯存和服務器內存架構已難以滿足需求。英偉達通過引入全新的數據處理單元(DPU)和海量 SSD(固態硬盤),構建了一個龐大的緩存池,試圖打破這一物理限制。 這一技術變革對於韓國存儲巨頭三星電子和 SK 海力士來説,無疑是一個巨大的利好消息。報道認為,隨着 ICMS 的推廣,NAND 閃存將迎來類似 HBM 的 “黃金時代”。這不僅意味着存儲容量需求的激增,更預示着存儲架構的根本性變革——GPU 將可能繞過 CPU,直接與存儲設備進行高速通信。 ## **KV 緩存爆炸式增長引發存儲焦慮** 韓媒文章指出,黃仁勳引入 ICMS 技術的**核心動因在於 “KV 緩存” 的激增**。**在 AI 推理時代,KV 緩存是 AI 理解對話上下文、進行邏輯推理的關鍵。**例如,當用户向 AI 詢問關於 G-Dragon 的複雜主觀問題時,AI 需要調用模型內部數據和歷史對話上下文(即 KV 緩存)進行權重分配和推理,以避免重複計算和幻覺。 隨着 AI 從單純的學習轉向推理,以及應用場景向多模態擴展,所需處理的數據量呈現不規則且爆炸式的增長。英偉達發現,僅靠昂貴的 HBM 或常規 DRAM 已無法容納海量的 KV 緩存,而現有的服務器內部存儲架構在應對未來推理時代時顯得捉襟見肘。因此,一種能承載海量數據且保持高效訪問的專用存儲平台成為剛需。 ## **DPU 驅動的 9600TB 巨量空間** 據韓媒文章,ICMS 平台的核心在於將 DPU 與超大容量 SSD 相結合。文章轉述英偉達介紹,該平台採用了新的 “BlueField-4” DPU,充當數據傳輸的 “行政後勤官”,以減輕 CPU 負擔。一個標準的 ICMS 機架包含 16 個 SSD 托架,每個托架配備 4 個 DPU 並管理 600TB 的 SSD,使得單個機架的總容量達到驚人的 9600TB。 這一容量遠超傳統 GPU 機架。相比之下,一套包含 8 個機架的 VeraRubin GPU 平台,其 SSD 總容量約為 4423.68TB。黃仁勳表示,通過 ICMS 平台,虛擬層面上將 GPU 的可用內存容量從以前的 1TB 提升到了 16TB。同時,藉助 BlueField-4 的性能提升,該平台實現了每秒 200GB 的 KV 緩存傳輸速度,有效解決了大容量 SSD 在網絡傳輸中的瓶頸問題。 ## **開啓 NAND 閃存黃金時代** 文章指出,ICMS 平台主要利用的是 SSD,這直接利好 NAND 閃存製造商。過去幾年,雖然 AI 火熱,但鎂光燈主要集中在 HBM 上,NAND 閃存和 SSD 並沒有受到同等程度的關注。 英偉達將該平台定位為介於服務器內部本地 SSD 和外部存儲之間的 “第 3.5 層” 存儲。與昂貴且耗電的 DRAM 相比,由高性能 DPU 管理的 SSD 具備大容量、速度快且斷電不丟失數據的優勢,成為存儲 KV 緩存的理想選擇。 **這一架構變革直接利好三星電子和 SK 海力士。**由於 ICMS 對存儲密度的極高要求,市場對企業級 SSD 和 NAND 閃存的需求將大幅攀升。此外,英偉達正在推進 “Storage Next”(SCADA)計劃,旨在讓 GPU 繞過 CPU 直接訪問 NAND 閃存,進一步消除數據傳輸瓶頸。 SK 海力士已迅速響應這一趨勢。據報道,SK 海力士副總裁金天成透露,公司正與英偉達合作開發名為 “AI-N P” 的原型產品,計劃利用 PCIe Gen 6 接口,在今年年底推出支持 2500 萬 IOPS(每秒讀寫次數)的存儲產品,並預計到 2027 年底將性能提升至 1 億 IOPS。隨着各大廠商加速佈局,NAND 閃存和 SSD 有望在 AI 推理時代迎來量價齊升的新週期。 以下是韓媒文章全文,由 AI 翻譯: > 英偉達首席執行官黃仁勳在 2026 年國際消費電子展(CES)上發佈了一個神秘的內存平台:“推理上下文內存平台”。今天,《科技與城市》欄目將深入探討它究竟是什麼。 > > ## 關鍵詞:KV 緩存 > > 在 5 日(當地時間)於拉斯維加斯舉行的 NVIDIA Live 大會上,NVIDIA 首席執行官黃仁勳在演講結尾談到了內存平台。我不禁豎起了耳朵。這會是下一個 HBM 嗎? > > > 今日之星:黑色機架式 NVIDIA ICMS(推理上下文內存存儲)。圖片來源:NVIDIA > > 首席執行官黃仁勳指着的是 VeraRubin 人工智能計算平台一角的一個黑色機架。這個機架,也就是我們今天故事的主角,裏面存放着海量的存儲空間。 > > 首先,讓我解釋一下黃仁勳引入這項技術的原因。我們應該從 “KV 緩存” 説起,黃仁勳 CEO 在官方場合經常提到它。讀者朋友們,你們可能在最近關於 GPU 和 AI 硬件的文章中已經多次聽到過 KV 緩存這個名字。 > > 這個關鍵詞在 AI 推理時代至關重要。它關乎 AI 理解對話上下文和高效計算的能力。我們舉個簡單的例子。假設你打開 OpenAI 的 ChatGPT 或 Google Gemini,問一個關於韓國流行歌手 G-Dragon 的問題。 > > 如果用户問的是 G-Dragon 的音樂、時尚或事業等客觀信息,AI 可以根據它學習到的信息回答。但是,聊了一會兒之後,用户突然問:“那他為什麼會成為他那個時代的 ‘偶像’ 呢?” 這就好比問了一個沒有明確答案的論述題。這時,AI 就開始推理了。 > > 這就是 KV 緩存的關鍵所在:鍵和值。首先是鍵。我們很容易理解,但人工智能使用鍵向量來清晰地識別對話上下文中問題中的 “那個人” 是誰,以及答案的主題和目標(鍵)。然後,它會利用模型內部關於 G-Dragon 以及在與用户對話過程中收集到的各種數據(值)的中間計算結果,進行權重分配、推理,最終得出答案。 > > 如果沒有 KV 緩存,如果每個問題都像第一次一樣重新計算,GPU 將重複兩到三次工作,從而降低效率。這可能導致人工智能出現幻覺和錯誤答案。然而,KV 緩存可以提高效率。基於 “注意力計算” 的推理,會重用從與用户的長時間對話中獲得的各種數據並應用權重,速度更快,對話也更加自然。 > > > 圖片由 NVIDIA 提供 > > 隨着人工智能行業從學習向推理轉型,這種鍵值緩存不再僅僅是輔助存儲器。此外,所需的容量也在不斷增加。 > > 首先,隨着越來越多的人將生成式人工智能融入日常生活,數據量的不規則激增不可避免。隨着圖像和視頻服務的加入,對人工智能高級推理和想象力的需求將進一步增長,數據量還將呈爆炸式增長。 > > 隨着人工智能發現新信息的能力不斷提升,它會在與用户的互動過程中,在各種場景下創建大量有用的鍵值緩存(KV 緩存)。 > > 面對鍵值緩存的爆炸式增長,NVIDIA 也對 GPU 流量進行了管理。他們將 GPU 分為兩類:一類是大量生成鍵值緩存的 GPU,另一類是使用鍵值緩存的 GPU。然而,存儲空間不足以存儲所有這些緩存。 > > 當然,服務器內部的內存容量很大。GPU 旁邊是 HBM 內存→如果不夠用,就用 DRAM 模塊→如果實在不行,甚至會在服務器內部使用 SSD 固態硬盤。然而,CEO 黃仁勳似乎已經意識到,這種架構在未來的推理時代將難以駕馭。因此,他在 CES 上發佈了這款黑盒子。 > > > NVIDIA CEO 黃仁勳在 CES 2026 上推出 ICMS。圖片由 NVIDIA YouTube 提供。 > > ## DPU + 超大容量 SSD = KV 緩存存儲專用團隊 > > > 這台黑色服務器是 “推理上下文內存平台”,簡稱 ICMS。讓我們仔細看看它的規格。 > > 首先,驅動 ICMS 的設備是 DPU,即數據處理單元。讀者可能對 GPU 和 CPU 比較熟悉,但服務器的隱藏動力源——DPU 也值得一看。 > > > NVIDIA 首席執行官黃仁勳發佈了 BlueField-4 DPU。圖片由 NVIDIA 提供。 > > DPU(數據處理單元)就像軍隊中的行政後勤官。如果説 CPU 是連長,那麼 GPU 就是計算突擊隊員。DPU 負責彈藥和食物的運送,甚至處理通信和移動,使 CPU 能夠做出適當的決策,而 GPU 則專注於攻擊。NVIDIA 的新型 DPU“Bluefield-4” 被賦予了一項新任務:ICMS。現在,讓我們仔細看看 ICMS 平台。這個機架總共包含 16 個 SSD 托架。 > > > 圖片來源:NVIDIA > > 每個托架配備四個 DPU,每個 DPU 管理 150TB 的 SSD。這意味着一個托架總共有 600TB 的緩存 SSD。 > > 這是一個相當大的存儲容量。我們來比較一下。假設在 Blackwell GPU 服務器中,為了最大化 KV 緩存,我們在 SSD 放置區域安裝了八個 3.84TB 的通用緩存 SSD。這樣每台服務器就有 30.72TB 的 SSD,這意味着一個包含 18 台服務器的 GPU 機架的總 SSD 容量為 552.96TB。 > > 也就是説,單個 ICMS 托架的緩存 SSD 容量可以超過一個 GPU“機架” 所能容納的容量。一個機架中的 SSD 總數為 600TB x 16,即 9600TB。這比一套完整的 VeraRubin 8 個 GPU 機架(4423.68TB,552.96 x 8)的 SSD 容量高出一倍多。 > > > 圖片由 NVIDIA 提供 > > 黃仁勳在 CES 演講中表示:“以前 GPU 的內存容量為 1TB,但通過這個平台,我們獲得了 16TB 的存儲容量。” > > 仔細想想,他的話似乎相當準確。一個完整的 VeraRubin 平台由八個 GPU 機架組成。每個機架有 72 個 GPU,共計 576 張存儲卡。將 ICMS 的總容量 9600TB 除以 576 張存儲卡,得出約 16.7TB。 > > 雖然人們仍然擔心服務器的物理距離和 SSD 的傳輸速度,但 BlueField 4 性能的提升緩解了這些問題。黃仁勳解釋説:“我們實現了與之前相同的每秒 200GB 的 KV 緩存傳輸速度。” > > 此外,現有的 GPU 服務器存在網絡瓶頸,限制了 7.68TB 和 15.36TB 等大容量 SSD 的充分利用。這項基於 DPU 的網絡改進似乎正是為了解決這些問題。 > > ## 被視為 “零” 的 NAND 閃存的黃金時代即將到來嗎? > > > 圖片由 NVIDIA 提供 > > NVIDIA 將此平台劃分為 3.5 個內存組。第一組是 HBM,第二組是 DRAM 模塊,第三組是服務器內部的本地 SSD,第四組是服務器外部的存儲。ICMS 深入研究了介於第三組和第四組之間的神秘領域。與昂貴或耗電的 DRAM 不同,SSD 比硬盤速度更快、容量更大,即使斷電也不會丟失數據(這得益於高性能 DPU),使其成為理想之選。 > > 該平台顯然為三星電子和 SK 海力士提供了巨大的商機。僅一個機架就能增加 9,600 TB 的容量,這意味着他們可以銷售比現有 NVIDIA 機架多數倍的 NAND 閃存,而且這僅僅是按位計算。此外,這款產品的開發商是 NVIDIA,一家全球所有人工智能公司都夢寐以求的公司,因此商機更加巨大。 > > > 三星電子的服務器固態硬盤。即使人工智能時代已經到來,NAND 閃存和固態硬盤的價格一直滯後,預計今年第一季度將出現大幅上漲。圖片由三星電子提供。 > > 過去三年,儘管人工智能市場發展迅猛,但 NAND 閃存和固態硬盤 (SSD) 並未受到太多關注。這主要是因為與在 NAND 閃存發展中發揮關鍵作用的 HBM 相比,它們的利用率較低。NVIDIA 正從 ICMS 項目入手,籌備一個旨在進一步提升 SSD 利用率的項目。該項目是 “Storage Next”(也稱為 SCADA,即 Scaled Accelerated Data Access,規模化加速數據訪問)計劃的一部分。目前,執行 AI 計算的 GPU 將直接訪問 NAND 閃存(SSD)來獲取各種數據,而無需經過 CPU 等控制單元。這是一個旨在消除 GPU 和 SSD 之間瓶頸的大膽設想。SK 海力士也已正式宣佈正在開發 AI-N P,以順應這一趨勢。 SK 海力士副總裁金天成表示:“SK 海力士正與 NVIDIA 積極開展名為 ‘AI-N P’ 的初步實驗(PoC)。” > > 他解釋説:“基於 PCIe Gen 6、支持 2500 萬 IOPS(每秒輸入/輸出操作數)的存儲原型產品有望在今年年底發佈。” 他還表示:“到 2027 年底,我們將能夠生產出支持高達 1 億 IOPS 的產品。” 2500 萬 IOPS 是目前固態硬盤速度的 10 倍以上。 ### Related Stocks - [SOXX.US - 費城交易所 半導體 ETF - iShares](https://longbridge.com/zh-HK/quote/SOXX.US.md) - [NVDA.US - 英偉達](https://longbridge.com/zh-HK/quote/NVDA.US.md) - [PSI.US - 動態半導體 ETF - Invesco](https://longbridge.com/zh-HK/quote/PSI.US.md) - [XSD.US - 標普半導體 ETF - SPDR](https://longbridge.com/zh-HK/quote/XSD.US.md) - [SSNGY.US - 三星電子](https://longbridge.com/zh-HK/quote/SSNGY.US.md) - [FTXL.US - 納斯達克半導體 ETF - First Trust](https://longbridge.com/zh-HK/quote/FTXL.US.md) ## Related News & Research | Title | Description | URL | |-------|-------------|-----| | 字節跳動自研 AI 晶片,三星談代工今年目標 10 萬顆 | 字節跳動正在研發自有 AI 晶片,並與三星電子洽談代工,以確保處理器供應穩定。由於美國出口管制,字節跳動啟動了代號為「SeedChip」的晶片計劃,旨在保障 AI 算力供應。預計在今年 3 月底前取得首枚樣品,並計劃今年生產至少 10 萬枚 | [Link](https://longbridge.com/zh-HK/news/275713889.md) | | 索羅斯逆市加碼微軟及 Nvidia 等科企 新買入黃金股 清倉 4 隻股份 | 索羅斯基金管理公司在 2022 年第四季度加大對微軟、英偉達和蘋果等大型科技股的投資,同時增持黃金股以對衝風險。基金還增持了 Atlassian、Salesforce 和 Uber 等軟體公司股票,但大幅減持了 Snowflake 和 Ci | [Link](https://longbridge.com/zh-HK/news/275990619.md) | | 被錯殺的存儲? | 高盛交易員 Louis Miller 指出,內存受益股與內存衝擊股的配對交易因市場波動而受到影響,導致與內存價格的差距擴大超過 7%。儘管市場關注軟件及其他板塊,內存市場的基本面未變,人工智能的普及預計將進一步推高需求。內存相關股的預期收益 | [Link](https://longbridge.com/zh-HK/news/275213702.md) | | 反超三星、利潤率蓋過台積電:SK 海力士是如何問鼎 AI 存儲領域 “隱形霸主” 的? | SK 海力士過去 12 個月市值飆升 340%,已從債權人控制的 “殭屍公司” 逆襲為 AI 產業鏈定價者。其憑藉 HBM 先發優勢,在 AI 需求爆發的浪潮下,深度綁定英偉達與微軟,拿下全球過半 HBM 份額;市佔率超越三星,利潤率超越台 | [Link](https://longbridge.com/zh-HK/news/275576275.md) | | 英偉達被撬牆角:OpenAI 首次發佈 Cerebras 芯片支持模型 | OpenAI 週四發佈的 GPT-5.3-Codex-Spark 專為實時編碼設計,是 OpenAI 最新代碼自動化軟件 Codex 的精簡版,也是 OpenAI 上月與 Cerebras 簽署超 100 億美元協議後的首個成果。OpenA | [Link](https://longbridge.com/zh-HK/news/275817804.md) | --- > **免責聲明**:本文內容僅供參考,不構成任何投資建議。