---
title: "DeepSeek V4 衝擊波：百萬上下文成標配，Agent 底座之爭打響在即"
type: "News"
locale: "zh-HK"
url: "https://longbridge.com/zh-HK/news/283948041.md"
datetime: "2026-04-24T06:59:58.000Z"
locales:
  - [zh-CN](https://longbridge.com/zh-CN/news/283948041.md)
  - [en](https://longbridge.com/en/news/283948041.md)
  - [zh-HK](https://longbridge.com/zh-HK/news/283948041.md)
---

# DeepSeek V4 衝擊波：百萬上下文成標配，Agent 底座之爭打響在即

作者 | 林克

4 月 24 日，備受關注的 DeepSeek 的 V4 模型預覽版終於發佈並同步開源了權重。

這次發佈的兩個版本，一個是總參數 1.6 萬億，激活 49B 的旗艦版 V4 PRO，一個是經濟型 V4-Flash，總參數 284B，激活 13B，均支持 100 萬 token 上下文，MIT 協議完全開源。

就在前一天，OpenAI 剛剛上線 GPT-5.5，每百萬輸出 token 定價 30 美元。今天 DeepSeek V4-Flash 的輸出定價是 2 元人民幣/百萬 token，摺合不到 0.3 美元。

**前後兩天，閉源與開源的兩種定價邏輯，面對面呈現在了市場面前。**

![圖片](https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/2b277e59-51f4-4f71-a670-62d1d6c15646.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg)

## **一、時點：三次跳票之後**

DeepSeek 這一天來得不算突然，但比所有人預期的都晚。

從去年底到今年 2 月、3 月、4 月初，DeepSeek V4 的發佈窗口推了三次，行業裏各大模型的頻繁更新幾乎進入了最密集的時刻。

必須承認在 2026 年 4 月末，百萬上下文已稱不上是絕對領先，Gemini、Qwen 等都到了這個量級。這次**DeepSeek V4 落地，要回答的不是"能不能做到"，而是"做到了之後，成本撐不撐得住"。**

V4 給出的回答是一套全新的混合注意力架構。它在 token 維度引入壓縮機制，結合自研的 DSA 稀疏注意力，其讓模型在處理超長文本時不再對所有 token 做全量計算，而是區分輕重：強關聯的 token 精讀，弱關聯的壓縮或跳過。

這套機制從預訓練階段就改變了模型處理長序列的方式。根據技術報告，V4 還引入了流形約束超連接（mHC），替代傳統殘差連接來增強深層網絡信號傳播的穩定性，並使用 Muon 優化器提升訓練收斂速度。整個模型在超過 32 萬億 token 上完成了預訓練。

實際效果用兩個數字就能概括：在百萬 token 上下文設置下，V4-Pro 每處理一個 token 的算力消耗只有 V3.2 的 27%，KV 緩存佔用只有 10%。

官方在公告裏説得更清楚："從現在開始，1M 上下文將是 DeepSeek 所有官方服務的標配。"這意味着長上下文正式從"加價功能"變成了"默認配置"，這對整個行業的成本預期是一次重新校準。

## **二、矩陣：兩型號 + 三模式**

在這次發佈中，旗艦 V4-Pro 和經濟型 V4-Flash 都支持三種推理模式：非思考模式（快速響應）、思考模式 - 高（顯式推理鏈）、思考模式 - 極限（推到模型能力邊界）。官方建議複雜 Agent 場景使用極限模式。

DeepSeek 對 V4-Pro 的定位給了一個直白的對標：內部員工已經把它當作日常 Agentic Coding 工具使用，體驗優於 Claude Sonnet 4.5，交付質量接近 Opus 4.6 非思考模式，但與 Opus 4.6 思考模式仍有差距。

推理性能方面，在數學、STEM 和競賽型代碼評測中超越當前所有已公開評測的開源模型，比肩世界頂級閉源模型；世界知識大幅領先其他開源模型，稍遜於 Gemini-Pro-3.1。

V4-Flash 的推理能力接近 Pro 版，但世界知識儲備稍遜；簡單 Agent 任務旗鼓相當，高難度任務有差距。

**這組自評有一處值得注意，DeepSeek 主動劃出了與 Opus 4.6 思考模式的差距**，在國產大模型發佈話術的傳統裏，這種剋制本身就是一種技術自信的表達。

## **三、扳機：Token 價格差**

隨着預覽版的公開，V4 的 API 定價已隨發佈同步上線。

每百萬 token，V4-Flash 的輸入價是 1 元（緩存命中 0.2 元），輸出價 2 元；V4-Pro 的輸入價 12 元（緩存命中 1 元），輸出價 24 元。官方註明這是預覽版定價，Pro 版下半年算力擴容後將大幅下調。

這組數字需要放在座標系裏看才有意義。

Flash 版每百萬 token 輸入 1 元——這個價格讓幾乎所有開發者都能無負擔地調用一個萬億參數級 MoE 架構的開源旗艦模型。

對比之下，GPT-5.5 前一天剛剛上線的輸出定價是 30 美元/百萬 token，摺合人民幣超過 200 元，與 V4-Flash 的 2 元輸出價差距超過 100 倍。即便拿 V4-Pro 的 24 元輸出價來比，差距仍在一個數量級以上。

Pro 版當前價格較高，但官方已經給出了明確的降價預期。背後的約束並非定價策略，而是算力供給——Pro 版的高性能推理對芯片資源要求更高，當前服務吞吐十分有限。這也從側面印證了 V4 在自主算力適配上的深度投入。

緩存命中的折扣幅度同樣值得關注。Flash 的緩存命中價只有未命中價的五分之一，Pro 是十二分之一。

這意味着 DeepSeek 在用定價槓桿鼓勵一種使用方式：把系統提示詞、工具定義、文檔模板等固定內容放在請求頭部，讓緩存機制自動生效，對於 Agent 類應用，這恰好是最典型的調用模式。

**用 Flash 的白菜價鋪量，用 Pro 的高階能力撐住頂端場景，用緩存機制降低 Agent 開發者的邊際成本。每一刀都切在應用層最痛的地方。**

## **四、方向：Agent 底座**

如果在 V4 的發佈裏只提煉一個關鍵標籤，那麼 Agent 比百萬上下文或許更重要。

官方明確寫道：V4 針對 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 產品進行了專項適配和優化，在 Agentic Coding 評測中達到開源模型最佳水平。這份適配名單同時包含 Anthropic 的產品和國產開發者工具。

**這個信號很明確，DeepSeek 不打算自建應用生態，而是要成為 Agent 時代的底座供應商。**

這個選擇放在當前的行業格局裏是一個有意識的取捨。Anthropic 的年化收入過去四個月從 90 億美元翻到 300 億美元，增量幾乎全部來自 Claude Code；Cursor 一個代碼編輯器估值已到 600 億美元。應用層的錢在那裏，但 DeepSeek 選擇不去碰。

**這説明它的定位不是下一個 Anthropic，更有可能是 Agent 時代的基礎設施。**

長上下文 + 低價 API+Agent 適配的組合，本質上是把自己做成一個供電站，讓所有電器都能更便宜地跑起來。

對於那些整天跟 Token 消耗作鬥爭的 Agent 開發者來説，V4 打開的是一個具體的場景：把整個代碼倉庫、完整的需求文檔、幾百輪歷史對話一次性塞進調用，不再需要切分、檢索、摘要這套工程繞路。過去做 Agent 最頭疼的就是上下文管理——每多一輪對話，token 就指數級堆疊，成本和穩定性同時惡化。

V4 如果能在真實負載下兑現承諾，這個痛點的成本結構將被改寫一次。

## **五、生態：模型、算力賽跑**

V4 延期的這段時間裏，國產開源大模型的戰場從未安靜過。

今年農曆年前後出現了一次密集爆發：阿里 Qwen3.5 總參數 3970 億、激活僅 170 億，百萬 token 的 API 價低至 0.8 元，是 Gemini-3-Pro 的十八分之一；智譜 GLM-5 的代碼生成的 HumanEval96.2% 打到開源最強。

4 月繼續加速：Kimi K2.6 在 SWE-Bench Verified 上拿到 80.2%，幾乎追平 Claude Opus 4.6；智譜 GLM-5.1 在 SWE-Bench Pro 上以 58.4% 超過了 GPT-5.4 和 Claude Opus 4.6；Qwen 3.6 Plus 也跨入百萬 token 上下文行列。

Qwen、Kimi、GLM、MiniMax、MiMo，這些國產模型在國際開發者社區的出現頻率正在肉眼可見地上升。

除了模型，算力側的匹配也在同步落地。

華為在 V4 發佈同日確認昇騰全系列產品——A2、A3 及最新的昇騰 950 已全面適配 V4-Flash 和 V4-Pro。

措辭是"雙方芯模技術緊密協同"，意味着 DeepSeek 和昇騰的適配工作從模型研發階段就在同步推進。

華為給出了一組具體的性能數據：基於昇騰 950 超節點，V4-Pro 在 8K 輸入場景下實現了約 20ms 的單 token 解碼時延，單卡吞吐 4700 TPS；V4-Flash 可以做到約 10ms 時延，單卡吞吐 1600 TPS。

昇騰 A3 超節點上，V4-Flash 在 64 卡大規模部署下單卡吞吐超過 2000 TPS。

這些數字背後是昇騰 950 在底層架構上的三項代際升級：原生支持 FP8/MXFP4 等低精度格式（內存佔用降低 50% 以上，算力翻倍）、針對 MoE 稀疏訪存特徵的硬件級優化，以及 Vector 與 Cube 單元共享片上內存的新設計。

更值得關注的是工程生態層面的動作。

華為同步開源了 PyPTO 編程範式，讓 V4 新架構中涉及的 Attention 壓縮、mHC 等複雜算子的開發週期從周級縮短到天級，開發者不需要手動處理硬件層面的同步和數據搬運。

寒武紀同樣在發佈當天宣佈，已基於 vLLM 框架完成 V4-Flash 和 V4-Pro 的 Day 0 適配，代碼開源到 GitHub。

兩家國產芯片廠商在模型發佈首日就拿出了完整的推理部署方案，這個響應速度本身就説明，適配工作不是臨時趕出來的，而是跟模型研發深度咬合了很長時間。

DeepSeek 為這次底層算力遷移付出的工程代價不小。據此前報道，團隊重寫了大量核心代碼，完成了從 CUDA 生態到昇騰 CANN 框架的整套技術棧遷移，這也是 V4 反覆跳票的原因之一。

但當一個萬億參數級的開源旗艦模型，在發佈首日就能跑在國產算力的全系列產品上，適配代碼直接開源，推理性能給出了具體的吞吐和時延數據而不是"即將支持"——這件事的意義，已超出了任何單一模型的評測範疇。

無論模型還是算力，他們之間存在競爭關係，但從更大的維度看，它們都在證明了同一件事：

**中國 AI 研發的系統性能力不是一兩個特例，而是可以不斷連續性創新的生態。**

2025 年 1 月，DeepSeek R1 發佈，引發美股單日市值蒸發超 1 萬億美元，被業界稱為人工智能領域的 “斯普特尼克時刻”。

今天 V4 的發佈沒有那種戲劇性的震撼，但中國 AI 研發已經從 “偶爾令人震撼” 進入了 “持續在場” 階段。

DeepSeek 在公告末尾引了《荀子》中的一句話：

> **不誘於譽，不恐於誹，率道而行，端然正己。**

放在一家三次跳票、核心人才流失、剛傳出融資的公司身上，這句話讀起來有幾分倔強。

但在整個國產開源模型羣體站出來的 2026 年，這句話不只屬於 DeepSeek，更屬於中國所有 AI 創新堅定前行的腳步。

### 相關股票

- [SOXL.US](https://longbridge.com/zh-HK/quote/SOXL.US.md)
- [PSI.US](https://longbridge.com/zh-HK/quote/PSI.US.md)
- [XSD.US](https://longbridge.com/zh-HK/quote/XSD.US.md)
- [SMH.US](https://longbridge.com/zh-HK/quote/SMH.US.md)
- [SOXX.US](https://longbridge.com/zh-HK/quote/SOXX.US.md)
- [DPSK.NA](https://longbridge.com/zh-HK/quote/DPSK.NA.md)
- [OpenAI.NA](https://longbridge.com/zh-HK/quote/OpenAI.NA.md)
- [BABA.US](https://longbridge.com/zh-HK/quote/BABA.US.md)
- [09988.HK](https://longbridge.com/zh-HK/quote/09988.HK.md)
- [00100.HK](https://longbridge.com/zh-HK/quote/00100.HK.md)
- [HUAWEI.NA](https://longbridge.com/zh-HK/quote/HUAWEI.NA.md)
- [688256.CN](https://longbridge.com/zh-HK/quote/688256.CN.md)
- [89988.HK](https://longbridge.com/zh-HK/quote/89988.HK.md)
- [HBBD.SG](https://longbridge.com/zh-HK/quote/HBBD.SG.md)

## 相關資訊與研究

- [華為發表 Pura 90 系列與全球首款闊折疊手機 麒麟 9030S 晶片強化 AI 影像能力](https://longbridge.com/zh-HK/news/283786811.md)
- [SK 海力士利潤狂增五倍創歷史紀錄 AI 晶片訂單滿載未來三年供不應求](https://longbridge.com/zh-HK/news/283766820.md)
- [【AI】騰訊雲開源 AI Agent 沙箱底座 Cube Sandbox](https://longbridge.com/zh-HK/news/283470440.md)
- [美股半導體因 AI 需求創新高，地緣政治與科技爭議引發市場警覺](https://longbridge.com/zh-HK/news/283747658.md)
- [中國上海：加速腦機介面、6G、量子計算等技術應用試點及產品化](https://longbridge.com/zh-HK/news/283448459.md)