
开个脑洞:如果 DeepSeek 和 Kimi 们合并

1854 年,倫敦。邁克爾·法拉第在皇家研究所的地下室中撒下鐵屑,輕敲紙板。鐵屑在看不見的磁場裏排列成優美的弧線,他將這些弧線稱為 “力線”,一種全新的物理學語言就此誕生。
同年秋,威廉·湯姆遜在格拉斯哥大學寫下一組偏微分方程,用嚴密的數學語言重寫法拉第的直覺,把 “場” 納入牛頓力學的分析框架。湯姆遜相信,唯有方程,才能讓自然規律被真正理解。
這兩種理解世界的方式,在整個維多利亞時代既競爭又互哺,讓電磁學在半個世紀內完成了三級跳——從實驗室猜想,到數學精確描述,再到工程化——最終催生麥克斯韋方程組,成為第二次工業革命的基石。
一個半世紀後,相似的劇本在中國 AI 領域悄然重演。
2026 年 4 月 20 日,月之暗面發佈 Kimi K2.6。四天後的 4 月 24 日,DeepSeek 開源 V4。兩個萬億參數級開源模型在同一周落地,包攬全球權威開源模型榜單前兩名。這是兩家公司在過去 16 個月裏又一次技術路線迎頭相撞。
技術撞車撞到第 N 次,單純的比較已然疲乏。就在日前,X 上出現了一則好玩的提問,配着一張梗圖:如果 DeepSeek 和 Kimi 等中國開源公司合併,OpenAI 和 Anthropic CEO 會是什麼反應?
仔細想想,在中國互聯網史上,其實這一追問並不突兀。從 2012 年優酷與土豆的世紀聯姻起,每隔幾年,同一賽道的前兩名便會在資本與巨頭的意志推動下,從相殺走向相愛,把內耗轉為合力,去應對外部更大的戰場。
DeepSeek 與 Kimi 們會走進這條河流嗎?我們今天就開個腦洞:假如它們真的合併,會發生什麼?
01 技術互嵌:一個平視硅谷的全棧底座
DeepSeek 與 Kimi 們技術路線的高度互嵌,是探討合併假設的基本前提。假設合併,第一個產物就是一個覆蓋 “訓練—推理—部署—應用” 全鏈條的模型平台。
首先,DeepSeek 與 Kimi 們在架構層面的互嵌已深入骨髓。DeepSeek 在 V3 中首創的 MLA 注意力機制,通過低秩壓縮大幅削減 KV 緩存佔用,解決的是長文本推理中 “內存即成本” 的根本困境。2025 年 7 月,Kimi 發佈萬億參數開源模型 K2,直接採用 MLA 並將其擴展至萬億參數規模,證明這條技術路線規模化可行。
到 2026 年 4 月,劇本反轉。DeepSeek 發佈 V4,一項關鍵升級是用二階優化器 Muon 替換沿用十年的 Adam 優化器。Muon 的有效性,正是 Kimi 在 K2 訓練中首次在萬億參數規模上驗證,並由 Kimi 團隊系統性地公開了技術經驗。
其次,在能力層面,它們分工清晰、價值有很多互補的地方。
DeepSeek V4 把單 token 推理算力壓至 V3.2 的 27%,KV 緩存壓縮至十分之一,百萬 token 上下文從技術演示變為普惠基礎設施。Kimi K2.6 則聚焦長程任務執行與 Agent 集羣,支持 300 個子 Agent 並行協作、4000 次工具調用、13 小時不間斷編碼。OpenRouter 數據顯示,K2.6 發佈後躍居調用榜首,DeepSeek 緊隨其後,兩家同時進入全球前五。
多模態方面,Kimi K2.6 是全球開源前五中唯一支持圖片與視頻理解的模型;DeepSeek 在高階推理、數學與代碼評測中持續領先。二者在這一領域存在高度互補性。
最後,再硬件生態上,這兩家的選擇高度一致。
DeepSeek V4 明確下半年將支持華為昇騰 950,技術棧不再只依賴英偉達 CUDA,而是開始同步支持華為。Kimi 模型採用對國產芯片更友好的 INT4 量化技術,新發布的 Prefill-as-a-Service 技術更是支持國產芯片和已有英偉達芯片,降低對 CUDA 生態的依賴。如果是一家公司的話,在國產模型和國產算力的對接上會更有效率。
以上三個層面合在一起看,DeepSeek 在過去一個時期側重解決 “模型夠不夠便宜”,Kimi 則側重解決 “模型能不能幹重要的事”。合併後的平台將因此同時具備極致推理效率與深度生產力嵌入能力,可以直接對標 OpenAI 與 Anthropic 的閉源模型加產品矩陣。
技術互補是現象。更根本的原因在於人。DeepSeek 與 Kimi 的兩位創始人都信奉第一性原理,底層思維如出一轍。
梁文鋒的底色,是一位量化工程師。他浙大畢業,沒有留學背景,扎進量化投資靠算法交易完成資本積累,再投入 AGI 研究。這條路教會他一件事:把問題拆解到底層,重新計算每個環節是否冗餘,用最少資源達成同樣結果。他選擇開源的理由也源於同一邏輯——“在顛覆性的技術面前,閉源形成的護城河是短暫的。” 語氣平淡,邏輯鋒利。
楊植麟的底色,是一位可計算學派的篤信者。清華本科,CMU 博士,求學期間以 Transformer-XL 等工作建立學術聲望。他用六個字定義大模型的本質:“壓縮產生智能。” 在他看來,只要找到更優的壓縮方式,用更少的 token 表達同等信息密度,就能在算力受限下持續逼近更高智能。他以等差數列作比:一萬個數字,最理想的壓縮只存儲規律和首尾兩項,其餘皆可還原。他要找的,就是大模型裏的那條 “等差規律”。
一個用工程逼近極限,一個用邏輯逼近本質,殊途同歸。這正是 DeepSeek 與 Kimi 技術互嵌所以發生的根由。
一項產業事實正在浮現:它們正在共同構建一套標準開源技術棧——MoE 架構、MLA 注意力、Muon 優化器、多模態能力、Agent 框架、國產芯片適配。開源模型在實際調用量快速提升,説明這套技術棧正在成為中國大模型的事實標準。
也就是説,假如 DeepSeek 與 Kimi 們合併,誕生一個平視 OpenAI 與 Anthropic 的全棧技術底座只是下限。兩種計算精神的深度碰撞,將大幅推升大模型開源世界的進化速率。
02 商業合流:算力、收入與出海的敍事主權
技術互嵌已然夠深。但如果只停在技術層,合併的價值只兑現一半。兩家公司面臨的商業瓶頸高度一致:算力不足,收入體量偏小,全球化敍事分散。
先看算力。DeepSeek 在 V4 定價説明中寫了一句:“受限於高端算力,目前 Pro 的服務吞吐十分有限,預計下半年昇騰 950 超節點批量上市後價格會大幅下調。” Kimi 內部則流傳一個説法:“制約業務發展的只有算力,現在至少還有 10 倍的需求沒有被滿足。”
合併之後,芯片採購、機房建設、國產適配的投入不再重複,對英偉達、華為等供應商的議價能力隨之提升。更重要的是,統一技術棧意味着國產芯片只需適配一套標準,生態碎片化成本大幅壓縮。
再看收入。Kimi K2.5 發佈後 20 天內收入超過 2025 年全年,海外收入已超越國內,付費用户月環比增速超過 170%。K2.6 發佈時,API 輸入價格從每百萬 token 4 元提至 6.5 元,漲幅 58%,這是 K2 系列上線以來的首次漲價。DeepSeek 則以 “價格屠夫” 著稱,V4 Pro 輸入每百萬 token 12 元人民幣,到 5 月結束之前還限時打 2.5 折,僅 3 元。極致低價快速俘獲了開發者,也壓縮了盈利空間。
如果採用統一價格體系、持續且合理的成本下沉,有助於中國開源模型從互相壓價轉向協同定價,在國際市場建立更穩固的價值錨點。
出海方面,Cursor 套殼 Kimi K2.5,Cloudflare 引入 Kimi 作為主力模型,Perplexity 將 Kimi 列為唯一引入的中國模型,日本樂天基於 DeepSeek 開發 Rakuten AI 3.0。兩家在海外已各自建立了初步的用户心智據點。
合併後,統一品牌和開發者關係將降低海外認知成本,避免兩個中國開源模型在同一生態位上彼此消耗。一個更強的統一品牌,在海外市場與雲服務商、芯片廠商和頂級企業客户談判時,議價空間和合作條款的主動權將完全不同。
03 人才棋局:以長期技術願景凝聚頂尖研究者
DeepSeek 與 Kimi 是中國 AI 創業賽道中人數最精簡、人才密度最高的兩家公司,也都承受着大廠精準的挖角壓力。
過去一年,DeepSeek 被系統性挖走了至少五位核心成員,覆蓋了基座模型、推理、OCR、多模態四條核心技術線。Kimi 在 2025 年年中經歷長達半年的技術靜默期,同樣遇到員工流失。
兩家團隊的技術氣質也很相似。雙方都重視底層關鍵技術的研究:DeepSeek 脱胎於幻方量化,工程優化與成本控制文化濃厚;Kimi 由清華與 CMU 學術背景的研究者主導,學術探索與前沿創新氛圍濃厚。
假設得以合併,將形成覆蓋量化工程、學術研究、產品落地的複合型團隊,在優化器、注意力機制、殘差連接等底層領域的研究深度,可以更好的與 OpenAI 和 Anthropic 的研究部門正面抗衡。
一個更大的合併平台,能為頂尖研究者提供更具吸引力的股權空間與長期技術願景。當公司體量接近或超過 OpenAI 與 Anthropic 的估值水平時,被字節、騰訊、阿里以高薪逐個擊破的風險將顯著降低。
這也是合併假設的一個重要隱喻:大模型創業總要面對人才掐尖的現實。與其讓大廠一顆顆拔掉核心棋子,不如把棋盤做大。
04 資本拼圖:消弭技術實力與商業估值之間的巨大折價
從資本層面看,兩家公司的融資節奏同樣呈現清晰的互補性。
DeepSeek 此前從未引入外部資金。2026 年 4 月首次開啓外部融資,估值從最初至少 100 億美元一路飆升至超 200 億美元。融資這扇門被推開,意味着外部環境的壓力已超過對內部獨立性的堅持。
Kimi 則在 2025 年末至 2026 年初完成三輪融資,估值從 43 億美元躍升至 180 億美元。3 月 26 日,彭博報道月之暗面正在考慮赴港 IPO,同步進行一輪最高 10 億美元的融資。
兩家的資本畫像由此形成對照:一方初次向外開放,但估值中樞模糊;一方已證明付費模式的可行性,但同樣被算力資源鉗制了規模。這種互補性,構成了合併談判桌上關於估值空間博弈最具分量的籌碼。
合併後的估值,則要從全球 AI 定價座標中尋找參照。截至 2026 年 4 月,OpenAI 投後估值已逾 8500 億美元,Anthropic 一級市場估值達 3800 億美元(最近在未上市股權交易平台的價格甚至炒到突破 1 萬億美元,反超了 OpenAI)。反觀 DeepSeek 與 Kimi,即便將雙方當前估值簡單相加,也不及 Anthropic 的二十分之一。
懸殊的差距背後,映射的正是兩家公司因各自受制於技術棧、資源能力與商業模式的不完整性,其技術實力與商業估值之間的巨大折價。
05 統一牌桌:從開源模型攪局者到規則制定者
在全球 AI 格局中,中國開源模型已成衡量全球硬件進步的標尺。一如 Meta 最新模型 Muse Spark 的官方博客中,對比基準直接列出 DeepSeek 與 Kimi;再如黃仁勳在英偉達 2026 年 GTC 演講中,用 DeepSeek R1 和 Kimi K2.5 展示下一代 Blackwell Ultra 芯片性能
但海外開發者社區面對的是一個 “中國開源模型羣像”,而非一個清晰品牌。統一品牌、統一 API、統一技術路線圖,將大幅降低全球開發者的認知與遷移成本。
具體到 DeepSeek 與 Kimi,二者的雙頭並進帶來了關注同時,也存在顯著的戰略敍事的分散與模糊問題。合併有機會將中國開源模型的聲音集中為一個更清晰的品牌。
此外在生態對抗層面,硅谷正在快速走向封閉。OpenAI 不再公佈訓練細節,Anthropic 與 Google 的核心方法諱莫如深。Meta 雖以 Llama 系列維持開源敍事,技術透明度已遠不及中國公司。
DeepSeek 與 Kimi 的技術報告與開源代碼,構成了全球開源社區最重要的公共知識資產。多次技術撞車,表面是競爭,內裏是開源生態的正向循環。這種技術擴散,在硅谷頭部公司之間幾乎不可能發生。合併後,這種協同將從暗中的默契轉化為明面的體系,對全球開發者的吸引力將進一步放大。
定價權層面,兩家中國公司各自為戰時,實質上在互相壓低對方的商業價值。統一價格體系與開發者生態,中國開源模型才能真正從攪局者轉變為規則制定者。
06 難以逾越的高牆:假設很美好,但合併幾乎不可能
邏輯推到最後一步,必須面對一個事實:合併幾乎不可能發生,我們只是開個腦洞。
首先,創始人獨立性是第一堵牆。梁文鋒與楊植麟都是技術基因極強的創始人,各自帶出一支戰鬥力飽滿的團隊。DeepSeek 此前完全不拿外部融資,靠幻方量化自有資金燒至今日。梁文鋒的獨立性,投資圈有目共睹。一位接近他的人評價:“這不是一個出得起價就能進的標的,錢在梁文鋒的篩選標準裏,是最不重要的那一項。” 楊植麟在三個月內將公司從估值低谷拉昇至 180 億美元,經歷了完整的 V 型反轉。
兩個廣東人,相差八歲。一個從量化圈殺出,一個在學術界登頂。要讓任何一方在合併中屈居次要地位,幾乎無望。
其次,股東利益難以協調。騰訊參與 Kimi 多輪投資,又正接觸 DeepSeek;阿里同時出現在兩家投資名單中。大廠的戰略投資,本質是兩邊下注,而非促成一家獨大。若強行推動合併,騰訊與阿里在 AI 賽道的佈局靈活性將被大幅削弱。更關鍵的是,DeepSeek 此前從未引入外部資本,梁文鋒對公司的控制權近乎絕對。Kimi 方面已歷經多輪融資與多元股東,治理結構遠比 DeepSeek 複雜。
更關鍵的是,監管審查可能不會放行。兩家合併後或將佔據中國開源模型的主導地位,開源賽道上的其他獨立大模型公司或將被瞬間邊緣化。反壟斷審查即成難以逾越的一關。中國 AI 所需要的,是一個健康的競爭生態,而非一個開源領域的巨頭。
另外還有一條更深層的原因。競爭本身就是最高效的創新機制。回看這 16 個月,多次技術撞車恰恰印證:競爭加速創新。這種追趕若變成一家公司的內部迭代,反而可能喪失外部壓力催生的緊迫感。硅谷的 OpenAI 與 Anthropic 也在互相刺激,雖然閉源,競爭邏輯並無二致。
開源生態的多樣性遠比統一性重要。全球開源模型需要多條技術路線並存,一旦中國只剩一家開源巨頭,技術路線一旦走偏,整個中國開源生態便有傾覆之險。多一棵樹,便多一份抗風險的能力。
07 結語:競爭即進化
百餘年產業史反覆驗證着一條規律:最強大的系統,並非將所有零件塞入同一台引擎,而是讓不同的引擎在同一片海域中互為燈塔。產業真正的成熟,不是所有公司合併成一個巨無霸,而是多家公司在競爭中相互學習、共同進化,最終形成比任何單一公司都更強大的生態力量。
全球 AI 競爭已從單一技術比拼升維為生態對抗。在這場對抗中,中國不需要一個開源領域的超級巨頭,而需要幾座相互映照的高峰。它們是對手,亦是彼此最好的參照系。
一如法拉第的力線與湯姆遜的方程,一個用直覺觸摸世界的形狀,一個用邏輯推演真理的骨骼,最終在麥克斯韋方程處合流,卻從不曾合併為一人。它們各自獨立,才讓彼此的光芒有了可被丈量的參照。
在通往 AGI 的漫漫長路上,單槍匹馬或許能走得很快;但只有那些願意與同行者分享火種的隊伍,才能穿越大雪封山的無人區。
本文版權歸屬原作者/機構所有。
當前內容僅代表作者觀點,與本平台立場無關。內容僅供投資者參考,亦不構成任何投資建議。如對本平台提供的內容服務有任何疑問或建議,請聯絡我們。

