
算力,后 GPT-5 时代的 “硬通货”

北美模型更新与推理应用实现初步闭环,算力进入 “二次抢筹” 阶段。OpenAI 发布 GPT-5,显著降低算力成本,CEO 表示算力资源有望在 5 个月内翻倍。各大厂商 tokens 消耗量快速增长,寻求 AI 技术普惠性与商业可持续性平衡。国内大模型加速追赶,字节等企业发布模型更新,算力消耗稳中有升,特别是在多模态领域实现突破。国产算力芯片企业也在向系统级方案转型,以支持大模型迭代与应用部署。
摘要
北美模型更新 + 推理应用实现初步闭环,算力进入 “二次抢筹” 阶段,继续看好海外算力链投资。在 Google/Anthropic 等厂商带来模型小幅更新后,北京时间 8 月 8 日,OpenAI 发布了其最新版本领先大模型 GPT-5,除智力水平、编程能力等基础指标提升外,在资源调度、幻觉消除、输入上下文窗口长度、写作水平等领域也有明显优化。
更重要的是,GPT-5 大幅降低了单位算力成本,API 调用价格与 Gemini 2.5 Pro 实现对标,我们认为这也是当下 OpenAI 这类依赖外部资本的大模型企业的必然选择,是其算力需求持续的必要条件。OpenAI CEO 在 X 表示,公司有望于 5 个月内使其算力资源翻倍。
在推理应用端,以 Google 为代表的各大厂商 tokens 消耗量正呈高速增长态势,通过当前 “免费拉量、付费突围” 的市场策略,寻求 AI 技术普惠性与商业可持续性之间的阶段性平衡。我们看到,大模型行业领军者正通过技术迭代及客户粘性,使得追赶者不得不进行 “算力抢筹” 来避免被时代淘汰。
我们认为北美模型更新迭代 + 推理应用落地已在当下模型代际上实现初步闭环,算力在后 GPT-5 时代依然为 “硬通货”,我们继续看好海外算力产业链。
国内大模型加速追赶,看好开源 SOTA 模型更新后国产算力市场表现。国内业者虽在模型端与海外能力依然存在一定差距,但我们看到 2025 年以来字节、快手、Kimi、Minimax 等多家企业接连发布模型更新,并推广应用部署,算力消耗稳中有升,特别是在多模态领域实现了能力突破和商业落地,为中长期算力需求增长提供多元化动能。以内外部使用的合计口径来看,字节 tokens 月消耗量已经可媲美 Google。
供给侧来看,我们也看到国产算力芯片企业产品正在从单芯片走向系统级方案,来支持国内大模型迭代及应用部署。我们认为,若 DS 等开源 SOTA 模型在 3Q25 迎来更新,国内 AI 产业链飞轮有望重启,二级市场投资情绪也有望得到提振。
正文
发布 GPT-5,AI 大模型继续行驶在发展快车道上
我们看到,在 “DeepSeek 的创新热” 过后,全球大模型行业持续发展,模型迭代速度并未放缓,反而呈现出多点爆发的趋势,这也持续推动着算力需求向更高天花板迈进。
8 月 6 日凌晨,北美多家头部大模型公司几乎在同一时间段内发布了新一轮的模型更新。谷歌 DeepMind 推出了新一代通用世界模型 Genie 3,它能以每秒 20-24 帧速度实时生成 720p 画面,且可模拟出长达数分钟内容连贯的可交互动态世界,能模拟物理世界、自然世界,创建动画奇幻世界以及探索历史场景等,其问世标志着世界模拟 AI 迈向新高度,同时也推高了对算力的需求。
OpenAI 发布了首个开源大模型系列 gpt-oss,包含 gpt-oss-120b(1170 亿参数,适用于大规模、高性能推理任务)和 gpt-oss-20b(210 亿参数,专为低延迟和本地化应用设计),这两款模型的训练与运行同样需要大量算力支撑,无论是前期训练时的海量数据处理,还是后期在不同设备上推理时的即时运算。Anthropic 公司更新了 Claude Opus 4.1 版本,相较于之前的 Claude 4 系列,在编码、推理和执行指令能力上有所改进,如在 SWE-bench Verified 上的准确率提升等,我们认为模型性能的提升背后离不开算力提供保障。
图表 1:Genie 3 性能表现
资料来源:Google DeepMind 官网,中金公司研究部
图表 2:gpt-oss 竞赛编程表现
资料来源:OpenAI 官网,中金公司研究部
图表 3:Claude Opus 4.1 性能表现
资料来源:Anthropic 官网,中金公司研究部
8 月 8 日凌晨,OpenAI 更是发布了备受期待的 GPT-5,我们认为从算力视角分析这一新模型不乏亮点:Token 使用效率显著提升、定价体系大幅下降、上下文能力跃升至 400K。效率上的 “省”、价格上的 “低” 与能力上的 “强”,一方面压低了单次调用成本,另一方面以更长上下文与更广用户覆盖提升整体调用密度与瞬时资源占用,由此可明显推高对算力的实际需求,形成 “降本—扩容—增需” 的良性循环。
具体来看,首先我们认为 GPT-5 大大提升了 Token 使用效率,能够以更少的 Token 消耗获得超过前代模型的效果。这源于三方面升级:
其一,统一系统与自适应推理路由。GPT-5 是一个 “统一系统”,默认用一个更高效的聊天模型,只有当问题真的复杂时才切到 “Thinking” 推理模型,能按任务复杂度自动决定是否启用深度推理,避免对简单问题的冗长思考与输出;官方评估显示,在保持或提升效果的同时,GPT-5 Thinking 相比 o3 在多类任务上输出 Token 降低 50–80%。
其二,推理链收敛与工具调用更高效。根据公司官方评估,在真实工程评测(如 SWE-bench Verified)中,GPT-5 在高推理设置下较 o3 输出 Token 少约 22%、工具调用少约 45%,意味着它在规划—执行—校验的链条上更直、更稳,减少了中间步骤与交互开销,从源头压缩了生成长度。
其三,可控生成与最小推理。GPT-5 新增 verbosity(控制长短)与 reasoning effort(推理耗时)等控制项,使开发者能把 “文字密度” 和 “思考深度” 精确拨档到任务所需,避免过度解释,在不牺牲正确性的前提下显著降低有效 Token 投入。
同时,我们认为 GPT-5 对指令遵循与多工具协作的鲁棒性更强,减少澄清与返工回合,从而进一步降低 “每完成一项任务的总 Token”,这种从底层机制到应用接口的系统优化,不仅减少了单次任务的 Token 消耗,也降低了整体算力成本,推动算力的 “良性飞轮” 前进,用效率提升激发未来更大的需求。
图表 4:GPT-5 在软件编程上准确率与输出 Token 效率大幅提升
资料来源:OpenAI 官网,中金公司研究部
其次,GPT‑5 的定价策略实现了显著降本。开发者使用 GPT-5 API 时,每百万个输入 Token 收费仅为 1.25 美元,输出部分为 10 美元,整体远低于前代 GPT-4.1 模型;其中 GPT‑5 mini 版本更低,仅需 0.25 美元输入和 2 美元输出,GPT‑5 nano 更低至 0.05 美元输入和 0.40 美元输出。
我们看到,GPT-5 的定价结构甚至比一直被视为 “低价典范” 的 Gemini 2.5 Pro 更具竞争力,仅在输入端相当而输出更便宜,更比 Anthropic 同类产品低了 15 倍之多。另一方面,C 端用户现在可有条件地免费使用 GPT‑5。普通用户可以直接使用 GPT‑5 模式,使用时间保持在每天 “几小时” 级别,当用量达到上限后系统会自动切换到 mini 版本,确保体验不中断;Plus 订阅(约$20/月)拥有更高的使用额度,而 Pro 订阅(约$200/月)则享有无限访问 GPT‑5 Pro 与 GPT‑5 Thinking 模式。
从策略层面看,我们认为这样的定价和产品分层机制不仅降低了使用门槛,也让算力 “降本增效” 的趋势更加明确,对生成式 AI 的高频日常使用形成良性推动,有望持续刺激用户需求与使用广度。
图表 5:GPT-5 API 定价 (美元,每百万 Token)
资料来源:各公司官网,中金公司研究部
另一个关键进步在于上下文能力的跃升。
GPT-5 版本目前支持的上下文扩展到了 400K Tokens,相较 GPT-4o 的 128K 放大约 3.1 倍,相较 o3 的 200K 也提升到 2 倍;并且在长上下文检索与跨文档内容对齐上更稳健、命中率更高。这意味着单次会话可直接容纳大部头报告、代码库与多源资料,减少拆分与反复往返带来的 “额外对话” 与无效生成;同时,400K 的窗口也对显存与带宽提出更高的瞬时需求。
总体来看,一方面,更长的可见范围会带来超过 128K 的即时算力需求,另一方面,更强的应用承载力又会反向提升应用能力,激发新的应用场景(如长文档回答、跨工具流水线),从而进一步放大对算力的需求。
综上,我们看到,近期的模型更新背后一个共同的趋势和逻辑是:模型能力持续增强的同时,Token 的使用效率越来越高,同时对算力的需求持续走高,不仅是传统的云侧集群推理能力,越来越多的场景开始向本地和端侧算力迁移,例如本地部署的 OSS 模型对消费级 GPU 也提出了性能要求,Genie 3 这种需要端侧实时响应的模型也进一步推高了设备端的能效与算力门槛。
可以说,模型迭代本身就是当前大模型行业算力需求增长的主要源头之一。无论是训练规模的扩大,还是推理复杂度的提升,亦或是多模态、多任务适配的需求,都在持续推高算力消耗。
图表 6:2022 年以来 AI 模型更新时间线
资料来源:公司官网,中金公司研究部
从上图 AI 模型更新时间线图可见,2022 年以来,国内外众多厂商如 OpenAI、Anthropic、谷歌、国内如 MiniMax、Deepseek、字节等,不断推出新模型或更新迭代现有模型,2025 年上半年全球范围内主流厂商发布的大模型数量明显增加,且呈现出更为密集的发布节奏。
数据显示,2025 年上半年共有 9 家主要公司更新模型,总发布模型数量达 21 个,同比 2024 年上半年分别增长了 28.6% 和 10.5%。不仅如此,从模型类型来看,也从早期的语言模型单点能力演进为多模态、多任务、超长上下文等全面突破。例如 OpenAI 的 GPT-4.5、Claude4.1、Gemini2.5、Grok4、Qwen3-235B 等均体现出能力边界的进一步拓展。
这进一步反映出大模型行业持续发展、迭代加速的现状,密集更新的模型正成为推动算力需求持续走高核心因素。
海外模型的持续更新对算力而言是持续的利好因素。以 OpenAI 的 GPT-5 来看,我们认为其整体能力虽低于部分市场预期,然而本轮更像是在资本与单位经济的约束下的一次 “效率优先”、成本导向的选择,而非前沿技术边界突破的尝试。
OpenAI 主要依赖外部资本,资金消耗快,若无法形成合适的价格—性能组合,产品难以被大规模负担并保持可持续。基于此,我们认为 GPT-5 此次更新转变的目标是降低 OpenAI 的运营成本,而非全力推动前沿技术边界的拓展。为实现降本,GPT-5 此次更新将重点放在追求规模效应、降低延迟时间以及实现更经济便宜的推理成本上,让自身变得更易于被用户获取,为在全球范围内的推广创造了有利条件。
随着产品的广泛推广,吸引了更为庞大且多样化的用户群体,进而有力推动了产品的发展。而产品的发展壮大,必然会对算力产生更多的需求,从这个角度看,GPT-5 的更新对其持续消耗算力是有益的。8 月 11 日,OpenAI CEO Sam Altman 也在 X 平台表示,公司会把算力侧重分配给推理侧(付费版使用量提升/优先满足 API 需求/免费版服务质量提升),且拟在 5 个月维度内将计算资源扩大一倍,这一举措也印证了我们的上述观点。
与此同时,其他竞争对手可能选取的不同策略也有望对算力市场需求产生正面影响。例如谷歌、Meta 等企业,凭借其母公司的万亿级市值规模与雄厚资源,在资金投入与研发支持上几乎无后顾之忧,能够更从容地推进模型的更新与优化;Anthropic 则凭借与众多企业的紧密对接,具备更强的盈利能力与商业可持续性,这为其持续投入代码能力较强的模型研发、推动技术迭代提供了坚实基础。
我们看到,无论是面临资金约束而寻求商业化或规模化突破的参与者,还是具备稳定资源支撑的头部企业,其对模型迭代升级不同方向的持续推动,都在共同提升对算力的需求。
图表 7:不同厂商商业策略均对算力需求构成正向拉动
资料来源:各公司官网,中金公司研究部
全球大模型 Token 消耗快速攀升,AI 应用密度全面提升
海外巨头 Token 调用量快速增长:谷歌 AI Overview 领跑
2025 年以来,谷歌、微软与字节跳动的 Token 消耗量均呈显著上升趋势。
图表 8:2024 年 12 月-2025 年 7 月微软、字节、谷歌 Token 消耗量
资料来源:微软电话会,2025 火山引擎原动力大会,Google I/O 大会,中金公司研究部
我们认为,谷歌 Token 消耗量在 2025 年上半年显著攀升,主要受到两方面因素驱动:
首先,我们认为 AI Overview 的快速扩展大幅提升了 Token 调用频率,是驱动谷歌 2025 年 Token 消耗量显著增长的主要原因。AI Overview 是谷歌于 2024 年 5 月首次推出的搜索增强功能,该功能在搜索结果页面顶部自动生成简洁明了的 AI 摘要,无需用户主动进入对话界面,直接基于搜索关键词触发,这意味着 AI 系统在用户搜索时会频繁地在页面上自动生成大量自然语言摘要,而这些生成过程大多是在用户无感知的情况下由系统后台完成,因此 Token 的消耗主要来源于系统自动生成内容本身,而不是用户主动提问或点击所触发的交互行为。这种静态、默认触发的高覆盖率摘要机制,叠加谷歌每年约 5 万亿次的搜索请求体量,使得 AI Overview 成为谷歌 Token 调用量增长的关键推手。此外,2025 年 5 月谷歌推出 AI Mode,相比 AI Overview 进一步引入多轮搜索整合与多问题预测,推高了搜索 AI 整体的 Token 密度。整体来看,AI Overview 的产品形态、触发机制及部署速度,在功能侧构成谷歌 Token 消耗量快速增长的重要基础。
与此同时,我们认为谷歌在用户侧的明显领先进一步放大了其 Token 消耗总量,并拉开与其他厂商的差距。截至 2025 年 3 月,AI Overview 月活跃用户已达 15 亿,而 Gemini 的月活用户为 3.5 亿,OpenAI 旗下 ChatGPT 的月活跃用户约为 6 亿。值得注意的是,尽管 Gemini 作为 Chatbot 类应用的月活仅为 ChatGPT 的一半左右,谷歌整体的 Token 调用量却已达到微软的 5–6 倍,表明真正拉开双方差距的核心因素在于 AI Overview 这一搜索类功能的高频使用。相比之下,谷歌 AI 产品以免费、默认触发、轻交互为主要特点,大幅降低了用户使用门槛,在全球范围内实现了更快的渗透速度和 Token 调用量的集中快速增长。综合来看,谷歌依托其庞大的搜索用户体量、高频触发的 AI Overview 功能,以及轻便易用的交互入口设计,使得其 Token 调用结构在用户数与单位用户调用密度两个维度上同时扩张,从而支撑了其成为 2025 年 Token 消耗增长速度最快的头部厂商。
Token 消耗密度持续抬升,付费场景有望率先打破商业闭环
当下,Token 消耗量快速上升的驱动因素愈发多元复杂,相较于仅以 Chatbot 为主的阶段,算力需求快速扩张。
图表 9:Token 增加消耗的主要方式
资料来源:中金公司研究部
从当前 AI 应用市场的供需格局来看,免费模式仍是主要的用户使用方式,其用户规模和增长速度明显快于付费模式。
相比之下,那些已经实现变现的 AI 产品,通常具备明显的差异化能力,能够精准解决用户的高价值需求。从功能层面看,付费产品往往在专业性、可靠性与体验完整性上形成壁垒:例如,ChatGPT-Agent 与 Claude-4 等付费产品,凭借更强的推理能力、更低的错误率以及更完整的功能体验,构筑起一定的专业壁垒,其输出内容的错误率明显低于免费模型;从技术支撑看,付费产品依托更优的算力调度与缓存机制(如火山引擎的 AI 云原生方案降低 20% 推理成本 [1]),能够在高频交互场景中保持低延迟与高稳定性,这是免费产品难以企及的服务水准。
总体来看,我们认为当前 “免费拉量、付费突围” 的市场格局,反映出 AI 技术普惠性与商业可持续性之间的阶段性平衡。我们认为,随着模型能力的持续提升,如推理更准确、多模态交互更流畅、成本控制更高效,用户对高质量服务的付费意愿将逐步增强。届时,真正能为用户创造效率提升或决策优化价值的产品,将有望实现 “价值定价”,构建更清晰的商业闭环。
国产模型不甘示弱,静待流量王者更新
在全球范围内,虽然中国厂商的大模型创新能力相比北美可能暂时稍显落后,但整体模型水平仍在持续推进。随着模型不断迭代更新,其对云侧和端侧算力的要求也会越来越高,整个行业也将在算力与模型创新的相互促进中持续发展。我们认为,后续若 DeepSeek 等流量模型发布更新,有望促进上述正循环发展。
Kimi K2 作为一款万亿参数的 MoE 架构模型,较之前版本在架构、能力和功能上均有明显更新,整体性能实现大幅跃升。其采用总参数 1T、激活参数 32B 的设计,通过增加专家数量提升知识广度,减少注意力头数量增强特征学习效率,配合 MuonClip 优化器实现了 15.5T Token 预训练的稳定进行,在代码生成(如构建 3D HTML 场景、期货交易系统)、数学推理等基准测试中取得开源模型 SOTA 成绩,基础能力明显增强。按官方定价,每百万输入 Token 4 元、输出 Token16 元,未来随着开发者把更长文档、更复杂链式任务交由 K2 处理,整体 Token 消耗规模还将进一步放大。
图表 10:Kimi K2 损失与 Token 消耗量关系
资料来源:Kimi K2 官网,中金公司研究部
MiniMax 较之前版本也在长文本、视频生成与智能体三大赛道均完成 SOTA 级更新,同时也带来了更高的算力消耗。MiniMax 更新的三款模型通过 “扩大容量/分辨率 + 降低单价” 策略,实则增加了 Token 消耗。M1 将输入上限提至 100 万 Token,用户可一次性提交大量内容,单任务 Token 数成十倍、百倍增长;Hailuo 02 提升分辨率且同价,使用户倾向用更高清或多次重生成,单条视频 Token 消耗显著上升;Agent 方案可缓存整个知识库,每步将消耗大量 Token。三者将共同拉高 MiniMax 总 Token 消耗量。
快手可灵 AI 最近也通过多维度技术升级实现了能力的全面跃升。5 月快手推出的可灵 2.1 系列模型。尽管官方把定价(灵感值)维持在与 1.6 版本同一水平,但模型升级带来的高阶功能和创作自由度可能引导用户更频繁使用高规格模式,从而增加实际灵感值的消耗总量。
8 月 5 日,阿里通义千问团队开源了首个全新文生图模型 Qwen-Image。Qwen-Image 可能会推动通义千问向 “文本 - 图像” 多模态交互升级,这会增加 Token 消耗,其图像生成、编辑等任务需更复杂的文本指令,以及图像创作的多轮迭代调整、功能扩展带来的场景扩容等可能将增加 Token 消耗量。
图表 11:Qwen-Image 生成的图像
资料来源:Qwen-Image GitHub,中金公司研究部
从国内 AI 模型的升级态势来看,近期各大模型的更新均以独特方式拓展着 AI 边界,这直接引发了 Token 消耗量的急剧上扬,与早期仅存在 Chatbot 的阶段相比,呈现出指数级增长趋势。
图表 12:各个 AI 模型 APP 周度日均活跃用户数
资料来源:Similar Web,Questmobile,中金公司研究部
在字节跳动方面,火山引擎公布的数据显示,豆包大模型的日均 Token 使用量已达到约 16.4 万亿。2025 年第一季度,其在国内公有云大模型调用量的市场份额约为 46.4%,位居行业第一。
以 Kimi 为例,2025 年 2 月其 App MAU 约 2,622 万。
MiniMax 旗下海外社交 AI 产品 Talkie 在 2024 年 10 月的月活达 2062 万,对应的国内版产品 “星野” 月活为 512 万,二者合计月活 2574 万,其主打娱乐对话场景。
快手可灵的 Token 需求更多由 “多模态链路深度” 驱动:官方数据显示,其全球用户规模已突破约 2200 万,上线第 10 个月的年度经常性收入(ARR)突破 1 亿美元,且 4-5 月单月付费均超过 1 亿元人民币。
通义千问的 App 端公开 “绝对 MAU/DAU” 较少;第三方监测曾指出其虽位列 “智能体数量 Top3”,但流量多在 500 万以下,据此以 “数百万级 MAU” 估算,同样的交互口径下月度 Token 可达数十亿级,且随着其在 “文本—图像/视频” 多模态方向扩展(如 Qwen-Image、VLo 等),每次任务的提示词与迭代轮次也会进一步拉长。
综合而言,我们认为,随着 MAU 与人均交互次数的 “双增长”,叠加深度推理与多模态链路的拓展,Token 处理量的快速增长直接驱动了对更大内存容量与更复杂调度算法的需求。而在视频生成等新场景中,算力需求也快速攀升。随着模型能力的持续进化,未来 Token 消耗与算力需求将持续攀升,且算力瓶颈正从解码能力受限向带宽与互联能力受限发生结构性迁移。
国产算力聚焦从芯片到系统的全维度支撑,把握行业高成长机会
聚焦国内供给侧,我们看到中国 AI 芯片企业纷纷亮相 2025 世界人工智能大会(WAIC 2025)。
我们认为,当下国产算力厂商不再局限于单一芯片的性能迭代,而是聚焦于互连技术创新、超节点架构构建与规模化系统方案输出,通过协同构建高效算力集群,为 AI 大模型的训练与推理提供从芯片到系统的全维度支撑。
面对不断成长的市场天花板,我们认为国产算力有望通过产品实力不断提升继续攫取市场份额。
本文作者:成乔升、贾顺鹤等,来源:中金点睛,原文标题:《中金 | AI 进化论(13):算力,后 GPT-5 时代的 “硬通货”》
风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

