4 月 24 日上午，姍姍來遲的 DeepSeek V4 終於顯露真身。

當天，DeepSeek-V4-Pro 即登頂 Hugging Face 開源模型榜，兩個 “核彈級創新” 被津津樂道：

一是百萬級的超長上下文，但 KV cache 只有 V3.2 的 10%，被亞馬遜工程師盛讚將解決 HBM 短缺問題；

二是對國產芯片的適配，在研發過程中與華為緊密合作，並第一時間適配了昇騰、寒武紀等國產芯片。

巧合的是，Hugging Face 開源模型榜排名第二的，正是 4 月 20 日深夜發佈並開源的 Kimi K2.6。

如果是在太平洋對岸，兩個萬億參數模型的 “撞檔”，免不了為了估值、商業版圖互相攻訐，國內卻上演了截然不同的一幕：沒有互揭老底的戲碼、沒有暗流湧動的公關戰，甚至在技術底層進行了 “換防”。

“不尋常” 的背後，暗藏了中美在 AI 技術路線上的分歧：硅谷瘋正在狂 “豎起高牆”，試圖用閉源守住既得利益；國大模型廠商則選擇 “拆掉圍牆”，在開源的土壤上走向了協同進化。

01 硅谷深陷 “權力的遊戲”

不同於國內大模型百花齊放的開源路線，OpenAI、Anthropic、谷歌 Gemini 為代表的硅谷 AI 頭羊，無不是閉源的擁躉。

當前沿的技術創新被鎖死在各自的數據中心裏，面對算力成本的重壓和資本市場的期待，以開放與協作著稱的 “硅谷精神” 漸漸消亡，玩家們不可避免地陷入了零和博弈的 “權力遊戲”。

過去兩年裏，技術 “暗戰” 已經演變成公開互撕，最典型的手段就是互相 “搶風頭”：在競爭對手發佈新產品的關鍵節點，迅速拋出自家的重磅更新來遏制對方的聲量，已經成為硅谷的常規操作。

早在 2024 年 5 月，OpenAI 和谷歌就曾同時發佈 AI 新品，一方説 GPT-4o 全球領先，一方説 Gemini 家族能覆蓋全生態全路徑。最後兩家公司的 CEO 都坐不住了，公開在社交媒體上嘲諷對方。

不只是和谷歌的 “纏鬥”，OpenAI 與 Anthropic 的較量也進入了白熱化：就在 4 月 16 日，Anthropic 剛發佈了新模型 Claude Opus 4.7，OpenAI 在兩個多小時後便宣佈 Codex 大幅更新，喊出了 “Codex for（almost) everything” 的口號。明眼人都看得出來，時間上的撞檔絕非巧合，而是 OpenAI 針對 Anthropic 精心策劃的一場 “狙擊”。

除了輿論場上的 “文鬥”，互相 “揭老底” 的 “武鬥” 也成了硅谷的常態。

Anthropic 在 4 月 7 日高調宣佈年化收入達到 300 億美元，成功超越 OpenAI 的 250 億美元。

一個禮拜後，OpenAI 首席營收官在給全體員工的內部信中直言不諱地指出：Anthropic 對外宣稱的 300 億美元年化營收存在嚴重水分，因為它採用的是 “總額法”，把分給亞馬遜、谷歌等雲服務商的抽成，也全額算進了自己的總營收裏，導致年化收入被高估了約 80 億美元。

內部信中給對手拆台的做法，在科技行業並不常見，目的無非是想告訴投資人——Anthropic 的增長神話是注水的。

而一旦敵意滋生，會無孔不入地影響每一個決策。

Anthropic 因拒絕刪除合同中的特定安全條款與五角大樓 “鬧掰” 後，OpenAI 幾個小時後就高調宣佈已與美國國防部達成合作。

在 2026 年的 “超級碗” 上，Anthropic 重金投放了一條廣告，內容是 “廣告正在進入 AI 領域，但不會進入 Claude。” 可以説是對着剛開始測試廣告功能的 OpenAI“貼臉開大”.......

為何昔日的 “同門兄弟”，走到了水火不容的地步？

根源在於閉源商業模式的固有邏輯：閉源的生存根基在於構建護城河，而構建護城河的前提就是阻斷技術擴散，壟斷最先進的生產力。再加上技術路線不兼容、產品敍事對立，自然而然地形成了一個納什均衡：誰先 “停火”，誰的品牌敍事就會坍塌，最終在內耗的泥潭裏越陷越深。

02 開源陣營的 “協同進化”

將視線轉回國內，劇本的走向完全不同。

時間回到一年多前，DeepSeek-R1 的橫空出世，為狂奔的大模型創業賽踩了一腳剎車，進入決賽圈的大模型 “六小虎” 首當其衝。和硅谷最大的區別，DeepSeek 沒有扮演吃掉池子裏所有魚的 “鯊魚”，而是像鯰魚一樣激活了整個中國大模型生態，大家紛紛擁抱開源。

直接的例子就是和 DeepSeek 的成長軌跡高度重合的月之暗面都是 2023 年起步的初創團隊，都保持着人數極少但人才密度極高的團隊結構，並且都是 Scaling Law 的堅定信徒。

2025 年 7 月，月之暗面發佈了全球第一個萬億參數的開源模型 Kimi K2，在技術報告裏毫不掩飾的説採用了 DeepSeek 開源的 MLA 架構。對於大模型來説，處理超長文本最大的噩夢是顯存牆，而 MLA 架構的顛覆性在於，巧妙將 KV Cache 的壓縮率做到了驚人的 93% 以上。

有了 DeepSeek 貢獻的 “業界標準”，月之暗面在內的大模型團隊不需要重複造輪子，快速降低了推理成本。

故事並未止步於此。

翻看 DeepSeek V4 的技術文檔，詳細描述了模型的架構，其中一個重要升級是把大部分模塊的優化器從 AdamW 換成了 Muon，實現了更快的收斂速度、更優的訓練穩定性。

在 Kimi K2.6 的技術文檔中，同樣提到了 Muon 優化器，在相同的訓練量下實現了 2 倍的效率提升。

兩個模型都提到的 Muon 優化器，最早由獨立研究者 Keller Jordan 在 2024 年底的博客裏提出。同樣被 AdamW 困擾的月之暗麪糰隊，在 2025 年初對 Muon 進行了關鍵的工程化改進，增加了 Weight Decay、RMS 控制等能力，並命名為 MuonClip。

月之暗面在 Kimi K2 上率先驗證了 Muon 優化器的穩定性，實現了預訓練全程 “零 Loss Spike”。DeepSeek 在訓練 V4 大模型時，同樣採用了被驗證過的 Muon 優化器。

需要説明的是，開源大模型的 “協同進化” 並未陷入同質化，正在走向一條 “和而不同” 的道路。

比如 DeepSeek-V4 聚焦基礎模型的核心能力攻堅，進一步築牢了全球開源大模型的性能天花板，為全行業提供了性能比肩閉源旗艦的基礎底座；Kimi K2.6 深耕 Agent 工程化落地，解決了大模型長程自主執行的痛點，為大模型進入真實生產場景打通了關鍵路徑。

整個過程中，沒有曠日持久的商業談判，沒有劍拔弩張的專利博弈。在開源陣營裏，技術創新正在像水一樣自由流動，誰做得好，大家就用誰的。

在開源生態中汲取養分，在技術路線上互補。中國的大模型廠商，用行動向世界示範了硅谷之外的另一種可能。

03 美國在 “造牆”，中國在 “修路”

讚歎開源協同進化的同時，必須直面一個商業現實。

目前 OpenAI 和 Anthropic 的年化收入均達到了百億美元以上，而國內頭部大模型廠商的營收，剛跨過年化一億美元的大門。

OpenAI 在二級市場的估值約 8800 億美元，Anthropic 的估值已經飆升到了 1 萬億美元左右，而 Kimi 和 DeepSeek 新一輪融資的估值，分別為 180 億美元和 200 億美元。

有人高呼中國大模型廠商的市值被低估了，也有人認為：“能否將技術口碑轉化為真金白銀，是擺在中國廠商面前的生死大考。” 一時間，關於開源 “性價比” 的討論甚囂塵上。

想要看清終局，或可以從大模型的競爭階段着手：

第一階段是 “拼參數、拼 Benchmark”。到了 2026 年 4 月末，這個階段基本結束，各家在榜單上的跑分已經拉不開實質性差距。

第二階段是 “拼訓練效率、拼推理成本、拼架構創新”。正是當下所處的賽段，也是算力成本倒逼下的必然結果。

第三階段將是 “拼 Agent 體系、拼生態、拼開發者”。當 Token 從免費流量變成執行任務的 “燃料” 時，生態的繁榮度將決定生死。

國內的開源大模型處於什麼生態位呢？我們找到了兩組直觀的對比數據。

一個是訓練成本。

2025 年 8 月發佈的 GPT-5，訓練成本超過 5 億美元；同期的 Kimi K2 Thinking，訓練成本約 460 萬美元；DeepSeek 沒有公佈 V4 系列模型的訓練成本，但 V3 模型僅花費了 557.6 萬美元......國內大模型廠商只用了不到 OpenAI 零頭的資源，訓練出了同等水平的模型。

另一個是調用量。

進入 2026 年後，多模型聚合平台 OpenRouter 的數據顯示：在 OpenClaw 代表的 Agent 產品的帶動下，全球的 Token 消耗量呈現出了指數級增長，中國的 “開源夢之隊”，憑藉 “好用又便宜” 的口碑，調用量已經連續多周超越美國。

原因並不難解釋。

中國開源陣營已經跑通了 “正反饋飛輪”：A 公司開源底層技術，B 公司採用並進行工程優化，再將優化的結果和經驗反哺給整個生態。如果説閉源模型的進化是建立在海量算力堆砌上的線性增長，等待開源路線的，將是技術創新相互碰撞帶來的指數級擴散。

按照摩根大通的研報，2025-2030 年間中國 AI 推理 token 消耗量將實現約 330% 的年複合增長率，將從 2025 年的 10 萬億 token，激增至 2030 年的 3900 萬億 token，增長規模達 370 倍。

也就是説，2026 年仍處於 AI 爆發的初期，未來 5 年裏還有數百倍的增長機會，遠未到蓋棺定論的時候。

恰恰是對長遠機會的自信，在硅谷巨頭們拼命造牆時，中國的大模型廠商選擇用協同補位的方式，不斷夯實通往 AGI 的路。

04 寫在最後

這場轟轟烈烈的 AI 浪潮，誰會笑到最後？答案不僅關乎模型，還關係到算力的自主可控。如果把模型比作 “原子彈” 的話，擺脱外部技術封鎖的國產算力，就是將原子彈送上天的 “火箭”。

讓人欣慰的是，國產模型和國產算力的融合越來越緊密：DeepSeek V4 的技術文檔中，將昇騰 NPU 與英偉達 GPU 並列寫入了硬件驗證清單；月之暗面在最新的論文中將大模型推理的預填充和解碼運行在了不同芯片上，為國產芯片大規模參與模型推理打開了大門。

2025 年初，DeepSeek R1 為國產大模型爭取到了上牌桌的機會；到了 2026 年，中國的開源大模型陣營，正在協同合作中不斷創造更多定義牌桌規則的硬資本。

DeepSeek V4 炸場背後：硅谷在 “造牆”，中國在 “修路”

01 硅谷深陷 “權力的遊戲”

02 開源陣營的 “協同進化”

03 美國在 “造牆”，中國在 “修路”

04 寫在最後