--- title: "DeepSeek V3.1 Base 突袭上线!击败 Claude 4 编程爆表,全网在蹲 R2 和 V4" description: "DeepSeek 官方发布了全新 V3.1 版本,支持 128k 上下文长度,拥有 685B 参数,编程能力在开源模型中表现突出,Aider 编程基准测试得分 71.6%,超越 Claude Opus 4。新增原生搜索支持,去除「R1」标识,未来可能采用混合架构。每次编程任务成本仅为 1.01 美元,DeepSeek 粉丝数已破 8 万,用户期待 R2 发布。" type: "news" locale: "zh-CN" url: "https://longbridge.com/zh-CN/news/253732697.md" published_at: "2025-08-20T03:30:41.000Z" --- # DeepSeek V3.1 Base 突袭上线!击败 Claude 4 编程爆表,全网在蹲 R2 和 V4 > DeepSeek 官方发布了全新 V3.1 版本,支持 128k 上下文长度,拥有 685B 参数,编程能力在开源模型中表现突出,Aider 编程基准测试得分 71.6%,超越 Claude Opus 4。新增原生搜索支持,去除「R1」标识,未来可能采用混合架构。每次编程任务成本仅为 1.01 美元,DeepSeek 粉丝数已破 8 万,用户期待 R2 发布。 就在昨晚,DeepSeek 官方悄然上线了全新的 V3.1 版本,上下文长度拓展到 128k。 本次开源的 V3.1 模型拥有 685B 参数,支持多种精度格式,从 BF16 到 FP8。 综合公开信息和国内大咖 karminski3 的实测,V3.1 此次更新亮点有: - 编程能力:表现突出,根据社区使用 Aider 测试数据,V3.1 在开源模型中霸榜。 - 性能突破:V3.1 在 Aider 编程基准测试中取得 71.6% 高分,超越 Claude Opus 4,同时推理和响应速度更快。 - 原生搜索:新增了原生「search token」的支持,这意味着搜索的支持更好。 - 架构创新:线上模型去除「R1」标识,分析称 DeepSeek 未来有望采用「混合架构」。 - 成本优势:每次完整编程任务仅需 1.01 美元,成本仅为专有系统的六十分之一。 值得一提的是,官方群中强调拓展至 128K 上下文,此前 V3 版本就已经支持。 对于这波更新,大家的热情可谓是相当高涨。 即便还未公布模型卡,DeepSeek V3.1 就已经在 Hugging Face 的趋势榜上排到了第四。 DeepSeek 粉丝数已破 8 万 看到这里,网友们更期待 R2 的发布了! ## **混合推理,编程击败 Claude 4** 这次最明显的变化是,DeepSeek 在官方 APP 和网页端上,把深度思考(R1)中的「R1」去掉了。 同时,与 V3-base 相比,DeepSeek V3.1 新增了四个特殊 Token: - <|search▁begin|> (id: 128796) - <|search▁end|> (id: 128797) - (id: 128798) - (id: 128799) 对此,有推测认为,这可能暗示推理模型与非推理模型的融合。 在编程方面,根据网友曝出的结果,DeepSeek V3.1 在 Aider Polyglot 多语言编程测试中拿下了 71.6% 高分,一举击败了 Claude 4 Opus、DeepSeek R1。 而且,它的成本仅 1 美元,成为非推理模型中的 SOTA。 最鲜明的对比,V3.1 编程性能比 Claude 4 高 1%,成本要低 68 倍。 在 SVGBench 基准上,V3.1 实力仅次于 GPT-4.1-mini,远超 DeepSeek R1 的实力。 在 MMLU 多任务语言理解方面,DeepSeek V3.1 毫不逊色于 GPT-5。不过在,编程、研究生级基准问答、软件工程上,V3.1 与之有一定的差距。 一位网友实测,模拟六边形中小球自由落体的物理测试,DeepSeek V3.1 理解力明显提升。 ## 一手实测 第一时间,我们对 V3.1 进行了实测,首先是此次模型更新的重点:上下文长度。 假设对于中文而言,1 个 token ≈ 1–1.3 个汉字,那么这 128K tokens ≈ 100,000–160,000 汉字。 相当于**整本《红楼梦》正文(约 80–100 万字)的 1/6–1/8**,或者一篇。 实际测试也很准确,DeepSeek 告诉我们它只能阅读差不多 9%,也就是大约十分之一。 由于总结内容太长,我们截取了前三回,你觉得这个总结的怎么样? 在 128K 上下文测试中,DeepSeek-V3.1 输出速度相比以往获得较大提升,并且在工程上做了一些优化。 此次更新,DeepSeek 重点强调了对上下文的支持。 整个活,给 DeepSeek-V3.1 上点压力,让它根据「梦」这个字,输出尽可能多的内容,尽量达到上下文极限。 不过最后,差不多只输出了 3000 字左右,模型就停止了输出。 再来看下推理能力。 经典的 9.11 和 9.9 比大小问题,两种询问方式都能正确做答。 这次更新的一大体感还是速度变快了很多。 最后再来看看编程能力。 DeepSeek 的上一个模型是 R1-0528,主打的是编程能力。 看看这次 V3.1 是否有更大的提升。 最终结果只能说,打个 80 分吧,基本要求都满足了,但是画面风格和颜色变换功能并没有完美实现。 并且和 R1-0528 的结果相比,两者之间还是有些差距的,但孰好孰坏还需看个人偏好。 以下是开启思考模式后的结果,你觉得哪个更好? 接下来,看看 DeepSeek V3.1 能否复刻出 GPT-5 发布会上的法语学习小程序。 我们再来让 V3.1 画一个自己的 SVG 自画像,两种效果着实有些抽象。 风险提示及免责条款 市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。 ### Related Stocks - [DPSK.NA - 深度求索](https://longbridge.com/zh-CN/quote/DPSK.NA.md) ## Related News & Research | Title | Description | URL | |-------|-------------|-----| | DeepSeek 灰度測試新一代模型,野村: 訓練與推理成本下降或緩解盈利壓力 | DeepSeek 正在進行新一代模型的灰度測試,預計本月中旬推出 V4 模型。該模型在上下文長度和核心能力上有顯著提升,野村證券認為 V4 將通過底層架構創新推動 AI 應用商業化,而非顛覆現有價值鏈。V4 的發布預計將顯著降低訓練與推理成 | [Link](https://longbridge.com/zh-CN/news/275723457.md) | | DeepSeek 論文提新框架 減低訓練 AI 能源需求 傳最快農曆新年期間登場 | DeepSeek 發布新框架「流形約束超連接」,旨在提升 AI 系統的擴展性並降低訓練所需的計算和能源需求。該論文由創辦人梁文鋒及 18 名研究人員共同撰寫,已在 arXiv 和 Hugging Face 上發布。新架構通過嚴格的基礎設施優 | [Link](https://longbridge.com/zh-CN/news/271295221.md) | | OpenAI 警告國會關於 DeepSeek 蒸餾策略 | OpenAI 已經向美國立法者發出了關於其中國競爭對手深度求索(DeepSeek)的警告,稱該公司可能正在採用先進的提煉策略,從美國的人工智能系統中提取輸出,這引發了競爭和國家安全方面的擔憂。在致眾議院中國特別委員會的備忘錄中,OpenAI | [Link](https://longbridge.com/zh-CN/news/275935776.md) | | 學習英偉達刺激芯片銷售,AMD 為 “AI 雲” 借款做擔保 | AMD 為擴大市場份額祭出金融 “狠招”!為初創公司 Crusoe 的 3 億美元購芯貸款提供擔保,承諾在其無客户時 “兜底” 租用芯片。這一復刻英偉達 “租卡雲” 路徑的策略雖能短期推高銷量,但也令 AMD 在 AI 需求放緩時面臨更大的 | [Link](https://longbridge.com/zh-CN/news/276401504.md) | | 沃爾瑪四季度財報超預期但盈利指引不及預期,CEO 稱 “美國低收入家庭只能勉強維持生計” | 沃爾瑪 Q4 營收超預期,新財年盈利指引(每股 2.75-2.85 美元)遠低於市場預期的 2.96 美元,顯示通脹壓力下消費者支出不確定性猶存,拖累股價下跌 1.38%。財報印證 K 型” 分化:高收入家庭驅動增長,低收入羣體 “錢包吃緊 | [Link](https://longbridge.com/zh-CN/news/276398633.md) | --- > **免责声明**:本文内容仅供参考,不构成任何投资建议。