2 月 12 日,智谱发布 GLM-5,技惊四座。10 天后技术报告出炉,让人们一窥 GLM-5 模型的内在基因。 有意思的不是又刷了什么榜,而是整个思路变了:不再比参数大小,开始比系统工程能力。 GLM-5 做的三件事都挺实在:1、模型真的能完成复杂任务了,不只是写几行代码;2、训练效率上了一个台阶,超大模型不再是纯烧钱游戏;3、从底层到推理框架全面适配国产芯片——这个最关键。 如果说之前是 “中国在追赶”,现在则已经开始搭自己的技术体系了。 从"给代码"到"做系统" 报告提了个概念转变:从 Vibe Coding 到 Agentic Engineering。前者是你说一句我给段代码,后者是你给目标、我自己规划拆解、写代码调工具、调试迭代,直到把整个系统搞定。 GLM-5 的重点已经不是单题得分,而是: 200K 上下文(几百页文档的量) 跨文件软件工程任务 长周期任务中持续规划修正 多轮交互保持思考一致性 比如 Vending-Bench 2 要求"模拟经营自动售货机一年",最后看账户余额。GLM-5 在开源模型里第一,接近 Claude Opus 4.5。这测的是长期决策能力,不是问答题。 模型开始有"工程级智能"了。 稀疏注意力:不再无脑烧算力 GLM-5 有 744B 参数(激活 40B),训练了 28.5 万亿 token。按传统架构,算力消耗会爆炸。 核心创新是 DSA(DeepSeek 稀疏注意力)。传统注意力机制"看所有内容",计算复杂度平方级增长;DSA 动态判断"哪些 token 真正重要",只算关键部分。 200K 长上下文下,DSA 把注意力计算量降低 1.5–2 倍。 而且——无损。 其他高效注意力方法通常牺牲精度,DSA 通过继续预训练平滑过渡,性能不退化。 结果是: 同样算力 → 更长上下文 同样成本 → 更高推理能力 同样硬件 → 更大模型 对中国来说,效率创新比堆算力重要得多。 强化学习架构重构 GLM-5 的 RL 体系做了彻底改造。 生成与训练解耦。模型生成轨迹,训练在另一套系统异步进行。过去要等最慢任务完成才继续训练,现在谁先完成谁先训练,吞吐大幅提升。对长程 Agent 任务至关重要。 异步 Agent RL 算法解决了真实软件工程中任务持续数小时的问题。引入: Token-in-Token-out(避免重新分词误差) 双侧重要性采样 DP-aware 路由优化 KV cache 模型能在复杂环境中稳定学习,不会因策略偏移崩溃。 说白了,解决的是"如何让大模型在真实任务中持续自我改进"。 真正关键的一步:适配国产算力 报告对中国 AI 最重要的部分在这。 GLM-5 原生适配国产 GPU 生态,已兼容华为昇腾、摩尔线程、海光、寒武纪、昆仑芯、天数智芯、燧原。 不是"能跑"那种适配,而是: KV cache 调度优化 通信机制适配 混合精度训练匹配 INT4 量化感知训练对齐 分布式并行策略重构 很多国产芯片生态的难点不是算力,是软件栈。 GLM-5 的意义在于:不是围绕单一海外硬件架构设计,而是面向多种国产算力平台做系统级适配。 这是个质变——中国大模型开始围绕本土硬件生态做工程优化,不再被动迁移。 报告称,得益于上述软硬协同的极致优化,GLM-5 在单台国产算力节点上的性能表现,已足可媲美由两台国际主流 GPU 组成的计算集群;不仅如此,在长序列处理场景下,其部署成本更是大幅降低了 50%。 软硬件闭环正在形成 把 GLM-5 的技术路径拆开看,是个完整闭环: 模型架构创新(DSA)→ 训练效率优化(异步 RL)→ 内存与通信压缩(ZeRO、激活卸载)→ 低精度对齐(INT4 QAT)→ 国产芯片深度适配 这是一条完整的国产 AI 工程链路。 过去中国 AI 的优势在应用层,现在开始进入架构创新、算法工程、训练系统、芯片适配、推理框架的全栈优化。 这份技术报告的真正意义,不在某个基准测试分数,在于中国 AI 第一次以"体系能力"展示竞争力。 从炫技到成熟 GLM-5 的报告没过度强调"我们比谁强多少",详细披露训练流程、算法选择、工程权衡、消融实验。这本身就是成熟的表现。 当一个模型开始谈 GPU 利用率、长尾延迟、KV cache 复用、量化 kernel 对齐、灾难性遗忘控制——它已经不是在秀能力,而是在做工业级系统。 对中国来说,GLM-5 更像是一次宣告:我们不仅能做大模型,也能做自己的算力适配,还能把两者打通。 这才是真正的跨越。