<div id="readability-page-1">首先訓練同一代模型所需算力每隔 N 個月就是指數級降低，這裏面有算法進步、算力本身通縮、數據蒸餾等等因素，這也是為什麼説“模型後發更省力”。援引下星球內一則評論：“就好像看過幾遍答案，水平很一般的學生也能在 1 小時內把高考數學卷整出滿分”。 DeepSeek v3 因為是後發，完全可以避開前人走的坑，用更高效方式避坑，也就是 “站在巨人的肩膀上”。因此幻方在 GPT4o 發佈 7 個月後，用 1/10 算力實現幾乎同等水平，是合理的，甚至可以作為未來對同代模型訓練成本下降速度的預測。但這裏面依然有幾個概念上的誤解。 首先是 “訓練” 範圍上的混淆。幻方的論文明確説明了：“上述成本僅包括 DeepSeek-V3 的正式訓練，不包括與架構、算法、數據相關的前期研究、消融實驗的成本。” 也就是星球內一位算法工程師説的 “有點斷章取義，幻方在訓這個模型之前，用了他們自己的 r1 模型（對標 openai o1）來生成數據，這個部分的反覆嘗試要不要算在成本里呢？單就在訓練上做降本增效這件事，這不代表需求會下降，只代表大廠可以用性價比更高的方式去做模型極限能力的探索。應用端只要有增長的邏輯，推理的需求依然是值得期待的。” 隨着 Ilya 説的 “公開互聯網數據窮盡”，未來合成數據是突破數據天花板的重要來源，且天花板理論上足夠高。相當於過去的預訓練範式從卷參數、卷數據總量，到了卷數據質量，卷新的 Scaling 因子（RL、測試時間計算等），而算力只不過換了個地方，繼續被其他訓練環節榨乾。 從目前各大實驗室的實際情況看也是，OpenAI、Anthropic 至今仍處於缺卡狀態，相信幻方也是。看訓練算力是否下降，不應該只看某代模型某次訓練這種切面，而應該從“總量”以及 “自上而下”去看，這些實驗室的訓練算力總需求是下降了嗎？反而一直在上升。預訓練的經濟效益下降，那就把卡挪給 RL post train，發現模型實現同等提升所需卡減少了，那就減少投入了嗎？不會，真實邏輯應該是：榨乾同等算力去攫取 10 倍收益。就比如 o1 的訓練成本遠超 GPT-4，而 o3 的訓練成本大概率遠超 o1。從前沿探索角度看，訓練所需算力只會越來越多。應用生態越繁榮，只會讓訓練投入的支付能力更強；而算力通縮，只會讓同等投入買到更多訓練 Flops。 就好比幻方這次發佈的模型，依然是 LLM 路線下，將 MoE 壓榨到了極致。但相信幻方自己的推理模型 r1（對標 o1）也在探索 r2/r3，這顯然需要更多算力。而 r2/r3 訓完，又被用來消耗大量算力為 deepseek v4 合成數據。發現沒，pre-train scaling、RL scaling、test-time compute scaling 三條線甚至還有正反饋。因此，只會在可獲得最大資源的前提下，用最高效的算法/工程手段，壓榨出最大的模型能力提升。而不會因為效率提升而減少投入，個人認為這是個偽邏輯。 對於推理，不必多説了，一定是上升。引用下星球內洪博的評論：DeepSeek-V3 的出現（可能還包括輕量版 V3-Lite），將支持私有部署和自主微調，為下游應用提供遠大於閉源模型時代的發展空間。未來一兩年，大概率將見證更豐富的推理芯片產品、更繁榮的 LLM 應用生態。 文章來源：信息平權，原文標題：《訓練算力真的下降了嗎？》風險提示及免責條款 市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。</div>

OpenAI

英偉達

DeepSeek v3 的訓練算力需求顯著降低，得益於算法進步和數據蒸餾等因素，使得後發模型訓練更為高效。儘管幻方在 GPT4o 發佈後用 1/10 的算力實現相似水平，但訓練成本的計算需考慮前期研究的投入。未來合成數據將是突破數據限制的重要來源，整體訓練算力需求仍在上升，OpenAI 和 Anthropic 等實驗室也面臨算力不足的問題。

- 訓練同一代模型所需算力每隔 N 個月指數級降低。  
- 幻方的 DeepSeek v3 用 1/10 算力實現接近 GPT4o 的水平。  
- 未來合成數據將是突破數據天花板的重要來源。  

DeepSeek 火出圈，英偉達完了嗎？