2 月 12 日,智譜發佈 GLM-5,技驚四座。10 天后技術報告出爐,讓人們一窺 GLM-5 模型的內在基因。 有意思的不是又刷了什麼榜,而是整個思路變了:不再比參數大小,開始比系統工程能力。 GLM-5 做的三件事都挺實在:1、模型真的能完成複雜任務了,不只是寫幾行代碼;2、訓練效率上了一個台階,超大模型不再是純燒錢遊戲;3、從底層到推理框架全面適配國產芯片——這個最關鍵。 如果説之前是 “中國在追趕”,現在則已經開始搭自己的技術體系了。 從"給代碼"到"做系統" 報告提了個概念轉變:從 Vibe Coding 到 Agentic Engineering。前者是你説一句我給段代碼,後者是你給目標、我自己規劃拆解、寫代碼調工具、調試迭代,直到把整個系統搞定。 GLM-5 的重點已經不是單題得分,而是: 200K 上下文(幾百頁文檔的量) 跨文件軟件工程任務 長週期任務中持續規劃修正 多輪交互保持思考一致性 比如 Vending-Bench 2 要求"模擬經營自動售貨機一年",最後看賬户餘額。GLM-5 在開源模型裏第一,接近 Claude Opus 4.5。這測的是長期決策能力,不是問答題。 模型開始有"工程級智能"了。 稀疏注意力:不再無腦燒算力 GLM-5 有 744B 參數(激活 40B),訓練了 28.5 萬億 token。按傳統架構,算力消耗會爆炸。 核心創新是 DSA(DeepSeek 稀疏注意力)。傳統注意力機制"看所有內容",計算複雜度平方級增長;DSA 動態判斷"哪些 token 真正重要",只算關鍵部分。 200K 長上下文下,DSA 把注意力計算量降低 1.5–2 倍。 而且——無損。 其他高效注意力方法通常犧牲精度,DSA 通過繼續預訓練平滑過渡,性能不退化。 結果是: 同樣算力 → 更長上下文 同樣成本 → 更高推理能力 同樣硬件 → 更大模型 對中國來説,效率創新比堆算力重要得多。 強化學習架構重構 GLM-5 的 RL 體系做了徹底改造。 生成與訓練解耦。模型生成軌跡,訓練在另一套系統異步進行。過去要等最慢任務完成才繼續訓練,現在誰先完成誰先訓練,吞吐大幅提升。對長程 Agent 任務至關重要。 異步 Agent RL 算法解決了真實軟件工程中任務持續數小時的問題。引入: Token-in-Token-out(避免重新分詞誤差) 雙側重要性採樣 DP-aware 路由優化 KV cache 模型能在複雜環境中穩定學習,不會因策略偏移崩潰。 説白了,解決的是"如何讓大模型在真實任務中持續自我改進"。 真正關鍵的一步:適配國產算力 報告對中國 AI 最重要的部分在這。 GLM-5 原生適配國產 GPU 生態,已兼容華為昇騰、摩爾線程、海光、寒武紀、崑崙芯、天數智芯、燧原。 不是"能跑"那種適配,而是: KV cache 調度優化 通信機制適配 混合精度訓練匹配 INT4 量化感知訓練對齊 分佈式並行策略重構 很多國產芯片生態的難點不是算力,是軟件棧。 GLM-5 的意義在於:不是圍繞單一海外硬件架構設計,而是面向多種國產算力平台做系統級適配。 這是個質變——中國大模型開始圍繞本土硬件生態做工程優化,不再被動遷移。 報告稱,得益於上述軟硬協同的極致優化,GLM-5 在單台國產算力節點上的性能表現,已足可媲美由兩台國際主流 GPU 組成的計算集羣;不僅如此,在長序列處理場景下,其部署成本更是大幅降低了 50%。 軟硬件閉環正在形成 把 GLM-5 的技術路徑拆開看,是個完整閉環: 模型架構創新(DSA)→ 訓練效率優化(異步 RL)→ 內存與通信壓縮(ZeRO、激活卸載)→ 低精度對齊(INT4 QAT)→ 國產芯片深度適配 這是一條完整的國產 AI 工程鏈路。 過去中國 AI 的優勢在應用層,現在開始進入架構創新、算法工程、訓練系統、芯片適配、推理框架的全棧優化。 這份技術報告的真正意義,不在某個基準測試分數,在於中國 AI 第一次以"體系能力"展示競爭力。 從炫技到成熟 GLM-5 的報告沒過度強調"我們比誰強多少",詳細披露訓練流程、算法選擇、工程權衡、消融實驗。這本身就是成熟的表現。 當一個模型開始談 GPU 利用率、長尾延遲、KV cache 複用、量化 kernel 對齊、災難性遺忘控制——它已經不是在秀能力,而是在做工業級系統。 對中國來説,GLM-5 更像是一次宣告:我們不僅能做大模型,也能做自己的算力適配,還能把兩者打通。 這才是真正的跨越。