---
title: "DeepSeek V4 冲击波：百万上下文成标配，Agent 底座之争打响在即"
type: "News"
locale: "zh-CN"
url: "https://longbridge.com/zh-CN/news/283948041.md"
datetime: "2026-04-24T06:59:58.000Z"
locales:
  - [zh-CN](https://longbridge.com/zh-CN/news/283948041.md)
  - [en](https://longbridge.com/en/news/283948041.md)
  - [zh-HK](https://longbridge.com/zh-HK/news/283948041.md)
---

# DeepSeek V4 冲击波：百万上下文成标配，Agent 底座之争打响在即

作者 | 林克

4 月 24 日，备受关注的 DeepSeek 的 V4 模型预览版终于发布并同步开源了权重。

这次发布的两个版本，一个是总参数 1.6 万亿，激活 49B 的旗舰版 V4 PRO，一个是经济型 V4-Flash，总参数 284B，激活 13B，均支持 100 万 token 上下文，MIT 协议完全开源。

就在前一天，OpenAI 刚刚上线 GPT-5.5，每百万输出 token 定价 30 美元。今天 DeepSeek V4-Flash 的输出定价是 2 元人民币/百万 token，折合不到 0.3 美元。

**前后两天，闭源与开源的两种定价逻辑，面对面呈现在了市场面前。**

![图片](https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/2b277e59-51f4-4f71-a670-62d1d6c15646.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg)

## **一、时点：三次跳票之后**

DeepSeek 这一天来得不算突然，但比所有人预期的都晚。

从去年底到今年 2 月、3 月、4 月初，DeepSeek V4 的发布窗口推了三次，行业里各大模型的频繁更新几乎进入了最密集的时刻。

必须承认在 2026 年 4 月末，百万上下文已称不上是绝对领先，Gemini、Qwen 等都到了这个量级。这次**DeepSeek V4 落地，要回答的不是"能不能做到"，而是"做到了之后，成本撑不撑得住"。**

V4 给出的回答是一套全新的混合注意力架构。它在 token 维度引入压缩机制，结合自研的 DSA 稀疏注意力，其让模型在处理超长文本时不再对所有 token 做全量计算，而是区分轻重：强关联的 token 精读，弱关联的压缩或跳过。

这套机制从预训练阶段就改变了模型处理长序列的方式。根据技术报告，V4 还引入了流形约束超连接（mHC），替代传统残差连接来增强深层网络信号传播的稳定性，并使用 Muon 优化器提升训练收敛速度。整个模型在超过 32 万亿 token 上完成了预训练。

实际效果用两个数字就能概括：在百万 token 上下文设置下，V4-Pro 每处理一个 token 的算力消耗只有 V3.2 的 27%，KV 缓存占用只有 10%。

官方在公告里说得更清楚："从现在开始，1M 上下文将是 DeepSeek 所有官方服务的标配。"这意味着长上下文正式从"加价功能"变成了"默认配置"，这对整个行业的成本预期是一次重新校准。

## **二、矩阵：两型号 + 三模式**

在这次发布中，旗舰 V4-Pro 和经济型 V4-Flash 都支持三种推理模式：非思考模式（快速响应）、思考模式 - 高（显式推理链）、思考模式 - 极限（推到模型能力边界）。官方建议复杂 Agent 场景使用极限模式。

DeepSeek 对 V4-Pro 的定位给了一个直白的对标：内部员工已经把它当作日常 Agentic Coding 工具使用，体验优于 Claude Sonnet 4.5，交付质量接近 Opus 4.6 非思考模式，但与 Opus 4.6 思考模式仍有差距。

推理性能方面，在数学、STEM 和竞赛型代码评测中超越当前所有已公开评测的开源模型，比肩世界顶级闭源模型；世界知识大幅领先其他开源模型，稍逊于 Gemini-Pro-3.1。

V4-Flash 的推理能力接近 Pro 版，但世界知识储备稍逊；简单 Agent 任务旗鼓相当，高难度任务有差距。

**这组自评有一处值得注意，DeepSeek 主动划出了与 Opus 4.6 思考模式的差距**，在国产大模型发布话术的传统里，这种克制本身就是一种技术自信的表达。

## **三、扳机：Token 价格差**

随着预览版的公开，V4 的 API 定价已随发布同步上线。

每百万 token，V4-Flash 的输入价是 1 元（缓存命中 0.2 元），输出价 2 元；V4-Pro 的输入价 12 元（缓存命中 1 元），输出价 24 元。官方注明这是预览版定价，Pro 版下半年算力扩容后将大幅下调。

这组数字需要放在坐标系里看才有意义。

Flash 版每百万 token 输入 1 元——这个价格让几乎所有开发者都能无负担地调用一个万亿参数级 MoE 架构的开源旗舰模型。

对比之下，GPT-5.5 前一天刚刚上线的输出定价是 30 美元/百万 token，折合人民币超过 200 元，与 V4-Flash 的 2 元输出价差距超过 100 倍。即便拿 V4-Pro 的 24 元输出价来比，差距仍在一个数量级以上。

Pro 版当前价格较高，但官方已经给出了明确的降价预期。背后的约束并非定价策略，而是算力供给——Pro 版的高性能推理对芯片资源要求更高，当前服务吞吐十分有限。这也从侧面印证了 V4 在自主算力适配上的深度投入。

缓存命中的折扣幅度同样值得关注。Flash 的缓存命中价只有未命中价的五分之一，Pro 是十二分之一。

这意味着 DeepSeek 在用定价杠杆鼓励一种使用方式：把系统提示词、工具定义、文档模板等固定内容放在请求头部，让缓存机制自动生效，对于 Agent 类应用，这恰好是最典型的调用模式。

**用 Flash 的白菜价铺量，用 Pro 的高阶能力撑住顶端场景，用缓存机制降低 Agent 开发者的边际成本。每一刀都切在应用层最痛的地方。**

## **四、方向：Agent 底座**

如果在 V4 的发布里只提炼一个关键标签，那么 Agent 比百万上下文或许更重要。

官方明确写道：V4 针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 产品进行了专项适配和优化，在 Agentic Coding 评测中达到开源模型最佳水平。这份适配名单同时包含 Anthropic 的产品和国产开发者工具。

**这个信号很明确，DeepSeek 不打算自建应用生态，而是要成为 Agent 时代的底座供应商。**

这个选择放在当前的行业格局里是一个有意识的取舍。Anthropic 的年化收入过去四个月从 90 亿美元翻到 300 亿美元，增量几乎全部来自 Claude Code；Cursor 一个代码编辑器估值已到 600 亿美元。应用层的钱在那里，但 DeepSeek 选择不去碰。

**这说明它的定位不是下一个 Anthropic，更有可能是 Agent 时代的基础设施。**

长上下文 + 低价 API+Agent 适配的组合，本质上是把自己做成一个供电站，让所有电器都能更便宜地跑起来。

对于那些整天跟 Token 消耗作斗争的 Agent 开发者来说，V4 打开的是一个具体的场景：把整个代码仓库、完整的需求文档、几百轮历史对话一次性塞进调用，不再需要切分、检索、摘要这套工程绕路。过去做 Agent 最头疼的就是上下文管理——每多一轮对话，token 就指数级堆叠，成本和稳定性同时恶化。

V4 如果能在真实负载下兑现承诺，这个痛点的成本结构将被改写一次。

## **五、生态：模型、算力赛跑**

V4 延期的这段时间里，国产开源大模型的战场从未安静过。

今年农历年前后出现了一次密集爆发：阿里 Qwen3.5 总参数 3970 亿、激活仅 170 亿，百万 token 的 API 价低至 0.8 元，是 Gemini-3-Pro 的十八分之一；智谱 GLM-5 的代码生成的 HumanEval96.2% 打到开源最强。

4 月继续加速：Kimi K2.6 在 SWE-Bench Verified 上拿到 80.2%，几乎追平 Claude Opus 4.6；智谱 GLM-5.1 在 SWE-Bench Pro 上以 58.4% 超过了 GPT-5.4 和 Claude Opus 4.6；Qwen 3.6 Plus 也跨入百万 token 上下文行列。

Qwen、Kimi、GLM、MiniMax、MiMo，这些国产模型在国际开发者社区的出现频率正在肉眼可见地上升。

除了模型，算力侧的匹配也在同步落地。

华为在 V4 发布同日确认昇腾全系列产品——A2、A3 及最新的昇腾 950 已全面适配 V4-Flash 和 V4-Pro。

措辞是"双方芯模技术紧密协同"，意味着 DeepSeek 和昇腾的适配工作从模型研发阶段就在同步推进。

华为给出了一组具体的性能数据：基于昇腾 950 超节点，V4-Pro 在 8K 输入场景下实现了约 20ms 的单 token 解码时延，单卡吞吐 4700 TPS；V4-Flash 可以做到约 10ms 时延，单卡吞吐 1600 TPS。

昇腾 A3 超节点上，V4-Flash 在 64 卡大规模部署下单卡吞吐超过 2000 TPS。

这些数字背后是昇腾 950 在底层架构上的三项代际升级：原生支持 FP8/MXFP4 等低精度格式（内存占用降低 50% 以上，算力翻倍）、针对 MoE 稀疏访存特征的硬件级优化，以及 Vector 与 Cube 单元共享片上内存的新设计。

更值得关注的是工程生态层面的动作。

华为同步开源了 PyPTO 编程范式，让 V4 新架构中涉及的 Attention 压缩、mHC 等复杂算子的开发周期从周级缩短到天级，开发者不需要手动处理硬件层面的同步和数据搬运。

寒武纪同样在发布当天宣布，已基于 vLLM 框架完成 V4-Flash 和 V4-Pro 的 Day 0 适配，代码开源到 GitHub。

两家国产芯片厂商在模型发布首日就拿出了完整的推理部署方案，这个响应速度本身就说明，适配工作不是临时赶出来的，而是跟模型研发深度咬合了很长时间。

DeepSeek 为这次底层算力迁移付出的工程代价不小。据此前报道，团队重写了大量核心代码，完成了从 CUDA 生态到昇腾 CANN 框架的整套技术栈迁移，这也是 V4 反复跳票的原因之一。

但当一个万亿参数级的开源旗舰模型，在发布首日就能跑在国产算力的全系列产品上，适配代码直接开源，推理性能给出了具体的吞吐和时延数据而不是"即将支持"——这件事的意义，已超出了任何单一模型的评测范畴。

无论模型还是算力，他们之间存在竞争关系，但从更大的维度看，它们都在证明了同一件事：

**中国 AI 研发的系统性能力不是一两个特例，而是可以不断连续性创新的生态。**

2025 年 1 月，DeepSeek R1 发布，引发美股单日市值蒸发超 1 万亿美元，被业界称为人工智能领域的 “斯普特尼克时刻”。

今天 V4 的发布没有那种戏剧性的震撼，但中国 AI 研发已经从 “偶尔令人震撼” 进入了 “持续在场” 阶段。

DeepSeek 在公告末尾引了《荀子》中的一句话：

> **不诱于誉，不恐于诽，率道而行，端然正己。**

放在一家三次跳票、核心人才流失、刚传出融资的公司身上，这句话读起来有几分倔强。

但在整个国产开源模型群体站出来的 2026 年，这句话不只属于 DeepSeek，更属于中国所有 AI 创新坚定前行的脚步。

### 相关股票

- [SOXL.US](https://longbridge.com/zh-CN/quote/SOXL.US.md)
- [PSI.US](https://longbridge.com/zh-CN/quote/PSI.US.md)
- [XSD.US](https://longbridge.com/zh-CN/quote/XSD.US.md)
- [SMH.US](https://longbridge.com/zh-CN/quote/SMH.US.md)
- [SOXX.US](https://longbridge.com/zh-CN/quote/SOXX.US.md)
- [DPSK.NA](https://longbridge.com/zh-CN/quote/DPSK.NA.md)
- [OpenAI.NA](https://longbridge.com/zh-CN/quote/OpenAI.NA.md)
- [BABA.US](https://longbridge.com/zh-CN/quote/BABA.US.md)
- [09988.HK](https://longbridge.com/zh-CN/quote/09988.HK.md)
- [00100.HK](https://longbridge.com/zh-CN/quote/00100.HK.md)
- [HUAWEI.NA](https://longbridge.com/zh-CN/quote/HUAWEI.NA.md)
- [688256.CN](https://longbridge.com/zh-CN/quote/688256.CN.md)
- [89988.HK](https://longbridge.com/zh-CN/quote/89988.HK.md)
- [HBBD.SG](https://longbridge.com/zh-CN/quote/HBBD.SG.md)

## 相关资讯与研究

- [自主还是兼容：DeepSeek V4 延期背后的中国 AI 生态选择题](https://longbridge.com/zh-CN/news/283477571.md)
- [追光被关灯？历次抱团瓦解前均有假摔](https://longbridge.com/zh-CN/news/283871556.md)
- [“算电一体” 成 AI 基建新法则：软银拟自建电池产能补齐能源底座闭环](https://longbridge.com/zh-CN/news/283918889.md)
- [高德发布《空中高德低空产业白皮书》，启动 “底座 +” 生态计划，共建低空产业新生态](https://longbridge.com/zh-CN/news/283608822.md)
- [景业智能财报显韧性：在手订单筑牢业绩底座 核能前沿布局打开新空间](https://longbridge.com/zh-CN/news/283819135.md)