---
title: "浪潮信息劉軍：AI 產業不降本難盈利，1 元錢/每百萬 Token 的成本還遠遠不夠！"
type: "News"
locale: "zh-HK"
url: "https://longbridge.com/zh-HK/news/270816475.md"
description: "浪潮信息劉軍：AI 產業不降本難盈利，1 元錢/每百萬 Token 的成本還遠遠不夠！"
datetime: "2025-12-25T19:09:30.000Z"
locales:
  - [zh-CN](https://longbridge.com/zh-CN/news/270816475.md)
  - [en](https://longbridge.com/en/news/270816475.md)
  - [zh-HK](https://longbridge.com/zh-HK/news/270816475.md)
---

# 浪潮信息劉軍：AI 產業不降本難盈利，1 元錢/每百萬 Token 的成本還遠遠不夠！

當前全球 AI 產業已從模型性能競賽邁入智能體規模化落地的 “生死競速” 階段，“降本” 不再是可選優化項，而是決定 AI 企業能否盈利、行業能否突破的核心命脈。在此大背景下，浪潮信息推出元腦 HC1000 超擴展 AI 服務器，將推理成本首次擊穿至 1 元/每百萬 token。這一突破不僅有望打通智能體產業化落地 “最後一公里” 的成本障礙，更將重塑 AI 產業競爭的底層邏輯。

**浪潮信息首席 AI 戰略官劉軍強調，**當前 1 元/每百萬 token 的成本突破僅是階段性勝利，面對未來 token 消耗量指數級增長、複雜任務 token 需求激增數十倍的必然趨勢，現有成本水平仍難支撐 AI 的普惠落地。未來，AI 要真正成為如同 “水電煤” 般的基礎資源，token 成本必須在現有基礎上實現數量級跨越，成本能力將從 “核心競爭力” 進一步升級為 “生存入場券”，直接決定 AI 企業在智能體時代的生死存亡。

https://static001.geekbang.org/infoq/2e/2e4f082af574d2a71f429053bdacf33a.png
浪潮信息首席 AI 戰略官劉軍

## 智能體時代，token 成本就是競爭力

回顧互聯網發展史，基礎設施的 “提速降費” 是行業繁榮的重要基石。從撥號上網以 Kb 計費，到光纖入户後百兆帶寬成為標配，再到 4G/5G 時代數據流量成本趨近於零——每一次通信成本的顯著降低，都推動了如視頻流媒體、移動支付等全新應用生態的爆發。

當前的 AI 時代也處於相似的臨界點，當技術進步促使 token 單價下滑之後，企業得以大規模地將 AI 應用於更復雜、更耗能的場景，如從早期的簡短問答，到如今支持超長上下文、具備多步規劃與反思能力的智能體……這也導致單任務對 token 的需求已呈指數級增長。如果 token 成本下降的速度跟不上消耗量的指數增長，企業將面臨更高的費用投入。這昭示着經濟學中著名的 “傑文斯悖論” 正在 token 經濟中完美重演。

來自多方的數據也有力佐證了 token 消耗量的指數級增長趨勢。火山引擎最新披露的數據顯示，截至今年 12 月，字節跳動旗下豆包大模型日均 token 使用量突破 50 萬億，較去年同期增長超過 10 倍，相比 2024 年 5 月剛推出時的日均調用量增長達 417 倍；谷歌在 10 月披露，其各平台每月處理的 token 用量已達 1300 萬億，相當於日均 43.3 萬億，而一年前月均僅為 9.7 萬億。

https://static001.geekbang.org/infoq/63/630b39f9465489f30921f6716ba10c8d.png
谷歌公佈其 token 處理量變化

當使用量達到 “百萬億 token/月” 的量級時，哪怕每百萬 token 成本只下降 1 美元，也可能帶來每月 1 億美元的成本差異。劉軍認為：“token 成本就是競爭力，它直接決定了智能體的盈利能力。要讓 AI 真正進入規模化普惠階段，token 成本必須在現有基礎上繼續實現數量級的下降。”

## 深挖 token 成本 “暗箱”：架構不匹配是核心瓶頸

當下，全球大模型競賽從 “盲目堆算力” 轉向 “追求單位算力產出價值” 的新階段。單位算力產出價值受到能源價格、硬件採購成本、算法優化、運營成本等多種因素的影響，但不可否認的是，現階段 token 成本 80% 以上依然來自算力支出，而阻礙成本下降的核心矛盾，在於推理負載與訓練負載截然不同，沿用舊架構會導致算力、顯存與網絡資源難以同時最優，造成嚴重的 “高配低效”。

**一是算力利用率（MFU）的嚴重倒掛。**訓練階段 MFU 可達 50% 以上，但在推理階段，特別是對於追求低延遲的實時交互任務，由於 token 的自迴歸解碼特性，在每一輪計算中，硬件必須加載全部的模型參數，卻只為了計算一個 token 的輸出，導致昂貴的 GPU 大部分時間在等待數據搬運，實際 MFU 往往僅為 5%-10%。這種巨大的算力閒置是成本高企的結構性根源。

**二是 “存儲牆” 瓶頸在推理場景下被放大。**在大模型推理中，隨着上下文長度的增加，KV Cache 呈指數級增長。這不僅佔用了大量的顯存空間，還導致了由於訪存密集帶來的高功耗。這種存算分離不僅帶來數據遷移功耗和延遲，還必須配合使用價格高昂的 HBM，已經成為阻礙 token 成本下降的重要瓶頸。

**三是網絡通信與橫向擴展代價愈發高昂。**當模型規模突破單機承載能力時，跨節點通信成為新瓶頸。傳統 RoCE 或 InfiniBand 網絡的延遲遠高於芯片內部的總線延遲，通信開銷可能佔據總推理時間的 30% 以上，導致企業被迫通過堆砌更多資源來維持響應速度，推高了總擁有成本（TCO）。

對此，劉軍指出，降低 token 成本的核心不是 “把一台機器做得更全”，而是圍繞目標重構系統：把推理流程拆得更細，支持 P/D 分離、A/F 分離、KV 並行、細粒度專家拆分等計算策略，讓不同計算模塊在不同卡上按需配置併發，把每張卡的負載打滿，讓 “卡時成本” 更低、讓 “卡時產出” 更高。

## 基於全新超擴展架構，元腦 HC1000 實現推理成本首次擊破 1 元/每百萬 token

當前主流大模型的 token 成本依然高昂。以輸出百萬 token 為例，Claude、Grok 等模型的價格普遍在 10-15 美元，國內大模型雖然相對便宜，也多在 10 元以上。在天文數字級別的調用量下，如此高的 token 成本讓大規模商業化應用面臨嚴峻的 ROI 挑戰。要打破成本僵局，必須從計算架構層面進行根本性重構，從而大幅提升單位算力的產出效率。

https://static001.geekbang.org/infoq/19/198914798231d67ba6a74f066b7fb704.png
主流 LLM 的百萬 token 價格

(注：9 月 26 日 (AICC2025 大會當日) 數據，9 月 29 日 DeepSeek 發佈 V3.2 Exp 價格降為 3 元/每百萬 Token)

為此，浪潮信息推出元腦 HC1000 超擴展 AI 服務器。該產品基於全新設計的全對稱 DirectCom 極速架構，採用無損超擴展設計，可高效聚合海量本土 AI 芯片，支持極大推理吞吐量，推理成本首次擊破 1 元/每百萬 token，為智能體突破 token 成本瓶頸提供極致性能的創新算力系統。

https://static001.geekbang.org/infoq/55/555aec0d257a11bca539feb24d982749.png
元腦 HC1000 超擴展 AI 服務器

劉軍表示：“我們看到原來的 AI 計算是瞄着大而全去建設的，五臟俱全，各種各樣的東西都在裏面。但是當我們聚焦降低 token 成本這一核心目標之後，我們重新思考系統架構設計，找到系統瓶頸，重構出一個極簡設計的系統。”

元腦 HC1000 創新設計了 DirectCom 極速架構，每計算模組配置 16 顆 AIPU，採用直達通信設計，解決傳統架構的協議轉換和帶寬爭搶問題，實現超低延遲；計算通信 1:1 均衡配比，實現全局無阻塞通信；全對稱的系統拓撲設計，可以支持靈活的 PD 分離、AF 分離方案，按需配置計算實例，最大化資源利用率。

https://static001.geekbang.org/infoq/d8/d85af4f80fdabc71116f11fd0119e4be.png
全對稱 DirectCom 極速架構

同時，元腦 HC1000 支持超大規模無損擴展，DirectCom 架構保障了計算和通信均衡，通過算網深度協同、全域無損技術實現推理性能 1.75 倍提升，並且通過對大模型的計算流程細分和模型結構解耦，實現計算負載的靈活按需配比，單卡 MFU 最高可提升 5.7 倍。

https://static001.geekbang.org/infoq/a1/a16275931151639c59d7858e36766f3e.png
超大規模無損擴展

此外，元腦 HC1000 通過自適應路由和智能擁塞控制算法，提供數據包級動態負載均衡，實現 KV Cache 傳輸和 All to All 通信流量的智能調度，將 KV Cache 傳輸對 Prefill、Decode 計算實例影響降低 5-10 倍。

劉軍強調，當前 “1 元/每百萬 token” 還遠遠不夠，面對未來 token 消耗量的指數級增長，若要實現單 token 成本的持續、數量級下降，需要推動計算架構的根本性革新。這也要求整個 AI 產業的產品技術創新，要從當前的規模導向轉為效率導向，從根本上重新思考和設計 AI 計算系統，發展 AI 專用計算架構，探索開發大模型芯片，推動算法硬件化的專用計算架構創新，實現軟硬件深度優化，這將是未來的發展方向。

### 相關股票

- [000977.CN](https://longbridge.com/zh-HK/quote/000977.CN.md)

## 相關資訊與研究

- [百度千帆推 Token 福利包 採固定預算訂閲降企業 AI 成本 較市價折讓最高 5 成](https://longbridge.com/zh-HK/news/286877955.md)
- [【電訊股】齊推 Token 算力服務套餐，電訊三寶逆市造好，仍屬避險佳選可以點揀？](https://longbridge.com/zh-HK/news/286758632.md)
- [AI 丨趨境科技完成數億元 Pre-A 輪融資](https://longbridge.com/zh-HK/news/287017069.md)
- [【行業透視】善用 AI 重在定義問題與專業把關](https://longbridge.com/zh-HK/news/286681677.md)
- [遠傳股東會／總座井琪：放大 AI 綜效 不僅投資 AI 更投資員工能力](https://longbridge.com/zh-HK/news/286988951.md)