AI 宏大叙事的验证逻辑

华尔街见闻
2025.01.31 06:11
portai
我是 PortAI,我可以总结文章信息。

这篇文章探讨了 AI 宏大叙事的验证逻辑,强调在宏大叙事之外,需通过数学和调研数据进行验证。当前主流观点认为,强化学习在 Scaling Law 的早期阶段,可能会替代 Pretrain 的算力需求,未来三年内 AGI 将出现,Agent 产品将替代人类价值。尽管应用尚未爆发,但强化学习的进展延长了训练生命周期,行业面临的挑战和机遇并存。

这几天看各路 Sellside 点评和国内自媒体学到了很多宏大叙事专用名词,例如 Jevons paradox、Sputnik moment、全球技术扩散、降本带来加速 AGI。

太多的宏大叙事对弈难免逃不开空对空的交流。我们是个严肃的研究团队,不想从宏大叙事角度过度讨论。

这篇文章无意去证实或者证伪,只是感觉到在宏大叙事之外,我们也需要尝试用数学/会计方法和调研 Data Point 验证,作为我们 Track 进展的锚。

至少从我的感受是经历过去几天的 Debate,整个行业变得越来越容易受到刺激,易体质,投资的难度也越来越大。

现在的主流宏大叙事是:

  • 强化学习目前仍然在 Scaling Law 的早期,这会完全替代 Pretrain 的算力用量。

  • Deepseek等带来的模型降本,最终会大量刺激 Token 用量,带来应用生态的加速催化,并且总量比训练更大。

  • 我们会在未来三年内看到 AGI,Agent 产品替代人类价值,并且贡献大量的消耗。AGI 已经不是能不能,已经是什么时候的问题。

这与我们一年前听到的宏大叙事已经有了观感的变化,在一年前的宏大叙事是:

  • Agent 和应用进展是更加渐进的,在推理大规模起量,到训练预算增长变慢之间,可能会有 Air Pocket。

  • Air Pocket 的时间点,可能是发现 AI 刚好能处理例如 Coding、Math、客服等相对简单场景,但延伸到更加复杂场景需要更长的时间。

  • 前途非常光明,但过程可能仍然像 Gartner 曲线表述的,会有一个过热→冷静→成熟的阶段。

宏大叙事的转变是因为:

  • 最主要供应链出货很好,看不出 Airpocket。

  • 尽管我们还没有看到应用的爆发,但强化学习基于边际数据改善的逻辑,更容易做垂直场景。

  • 训练的生命周期也因为强化学习进一步延长了。

1 强化学习的进展与天花板

我们在之前的一篇文章详细的讲过强化学习的关键要素:合成数据的数量与质量。

在我们跟踪 Scaling Law 的过程中,也出现过几次明显的心态变化。

在 2024 年上半年和之前,Scaling Law 没有争议,Pretrain 的逻辑比 Posttrain 更加清晰简单,每一代模型可能需要 2-3 年,但 10x 参数量增长带来相应效果提升。

在 2024 年年中,我们开始在个别案例中,发现强化学习的用量已经超过 Pretrain,同时这是一条非常好的生成合成数据的路径,并最终会反哺 Pretrain。所以在当时,我们非常乐观,Scaling Law 同时有两条驱动曲线。

在 2024 年四季度我们看到了一些变化:

  • 强化学习反哺 Pretrain 的路径好像没有之前那么清晰,很难泛化。

  • 尽管进行了无数次尝试,但将额外计算能力投入到 Pretrain 中的回报已大大减少。这主要是由于高质量原始数据集的枯竭,而合成数据(一种潜在的解决方案)尚未提供令人满意的结果。

  • 但虽然 Pretrain 撞墙了,Scaling Law 仍然有一条处于早期的曲线for强化学习,我们讲到强化学习甚至还没有到 GPT3 的阶段。

  • 在这一阶段,我们的想法与目前的主流叙事逻辑非常一致。

到了最近一个月,我们又看到了一些变化:

  • 强化学习也存在数据制约,现在的数据生成方法仍然偏向手工化,依赖人工标注。同时,做题的方法也基本只适用于 coding 和 math,很难进一步泛化。

  • 如果继续沿用目前的的合成数据生产方案,往后的边际成本也会越来越高,这会同时出现 Data Effiency 和 Data Quality 的问题。

  • 但我们仍然不确定在 GB 卡带来训练算力指数级提升后,是否能解决 Data Effiency 问题,同时也通过大量实验解决 Data Quality 问题,最终通向可泛化的 Self-play,突破数据瓶颈,超越人类智能。

  • 另外也强调下,最近讨论热烈的 Deepseek R1-zero,和我们所说的 self-play 仍有所区别,实际上还是大量依靠了人类生成的数据,本质上还是和人类做了对齐,需要在宏大叙事下正视技术的发展。

所以这里最关键的验证点是在 GB 到量后,是否大量实验真的能够通向真正的Self-play。这个时间点很近了,可能在Q2-Q3会有清晰地结论(除非大集群 GB 完全上线会进一步 delay)

在这个验证点前,我们相信所有的大模型公司都要为了验证这一逻辑做大量的算力储备,换言之在这个时间段是对 CAPEX 相对安全的时间段。

但越临近验证点,不确定性的风险也就越大。

2 降本带来的推理用量刺激-Jevons paradox

燃油、煤炭、电都是典型的Jevons paradox 商品,并在不断降价后催生了更大的需求。

IaaS 产品也是,头部 CSP 每年降价 5-8%,通过性能相对 OnPrem 的不断提升,最终带来的稳定的增速。

大模型 API 仍然非常接近于过去软件行业的 PaaS 产品。而降本带来用量刺激的逻辑,在 PaaS 产品的每一个阶段都相伴相生。

我们在 CDN、短信、RTC、数据库等不同壁垒的 PaaS 产品中都听到过类似的故事,“降价会促生更大的用量,来收入的加速增长。”

最近的一次故事在所有 Consumption SaaS 中,从 2022 年开始,所有的客户都开始认为 Consumption SaaS 的定价太贵了。Consumption SaaS 也开始回应客户的需求,并开始为我们所有投资人画下了一个新的大饼,“降价刺激更多的用量,百利而无一害,我们很快会再次加速增长。”

这个再次加速增长短的用了一年时间,长的用了三年时间。

就 LLM API,我也觉得最后一定会符合 Jevons paradox 的终局,但中间的路径可能仍然很曲折。

这需要非常好的节奏把控。目前每个季度平均 API 的降本大概维持 20-30% 的水平。这意味着每年 API 价格会降低 70%,换言之需要倍的 Token 增长维持 API 收入的稳定。需要 6 倍的 Token 增长,维持 API 收入的翻倍。

造成过去每个季度降本的模型包括 GPT4 Turbo、GPT4o、GPT4o mini。

一次过快的价格调整,很可能也会带来 1-2 个月的 Dip(没错,AGI 时代已经比之前的 PaaS 友好多了,毕竟是大时代),然后花更多的时间走出来直至加速。

所以在这轮里可能要去想,如果降本不一定能带来推理算力总盘子立刻加速增长(可能还是渐进的增长),那在叙事变化的时候,什么产品的份额会提升?

同时在目前的场景中也需要区分是更好的模型,还是更便宜的模型在驱动用量。

在多数 2C 场景,更便宜的价格,意味着更低的试错成本,可以覆盖更多的客户,这一点问题都没有。

但在 2B 场景,客户付费能力本身就更强,更好的模型才会带来更多的用量,价格带来的弹性可能有限。例如 Salesforce Agentforce 产品,目前普遍的客户折扣在 2-3 折,模型的降本很难推动客户去打 1 折刺激更多量。但模型的能力提升,不光可以带来用量提升,还可以带来更高的 ASP。

所以更强的 O4、O5 模型,或者 Orion 模型,可能对用量的帮助更大。

回到我们的观测时间点,观测 API 增长比观测 Agent 公司的进展更加直接。

这个时间点可能在 2-3 月。O1 正式版在相比 O1 Preview 降本 60%,以及 O3 出现后,是不是能带来用量的增长。这对推理的弹性非常大。

目前在观察了 2 个月 O1 Preview 的使用情况后,还没有看到用量的激增。

3 IT Spending 与 CAPEX 的数学逻辑

主流叙事很容易将两者画等号,但在数学与会计逻辑却有很大的区别。

我们曾经对 OpenAI 的训练成本进行过估算,这包括 24-26 年的训练折旧成本分别为 3.6B、8.6B 与 15B。25 年的折旧成本可能比 OpenAI 原本的计划要低,在考虑到如果 Stargate 项目能顺利融资,25 年-26 年的折旧成本也会继续上移。

在上述的假设中,尽管训练开支仍然在 2026 年有 70% 的增长,但到 CAPEX 层面已经不再增长了。训练开支更符合收入增长的趋势,我们假设 OpenAI 在 26 年仍然有翻倍的收入增长。但毫无疑问在这个算术里,2025 年是 CAPEX 的超级大年,但也留下了更多的问号给 2026 年。

我们尝试将 Startgate 的影响加入其中。尚且不了解 Stargate 与 OpenAI 原本的 CAPEX 有多少重合。

第一批 1000 亿美金 StargateTCO 中,有 15% 是资金和运维成本,扣掉后 25-27 年的 CAPEX 投资(和上面 apple2apple 包括场地等)分别是 100 亿,250 亿,500 亿。如果 25-26 年的 CAPEX 中都各有一半是来自 OpenAI 过去的 CAPEX 计划,那意味着去重后的 25-26 年 CAPEX 是 300 亿和 375 亿,27 年会增长更快。

在这个算术场景中,Stargate 非常重要,能不能顺利融资和启动决定了 2026 年的 CAPEX 叙事。

同样的数学计算也可以出现在 Anthropic CEO 最近的描述中。

所以这里最大的验证节点是 Stargate 的融资进展,以及其 ROI 的合理性。

按照目前的 ROI 估算,最大的算力供应方 Oracle 的 IRR 仅有 5-8%。

4 Sputnik moment

这个话题非常 Debate,不想过度阐述。

但看起来更像闭源 AI 的 Sputnik moment,而不像美国 AI 行业的 Sputnik moment。

Deepseek 与北美大模型的 Effiency 比较,虽然无法 Apple2Apple 的给出答案,但观察北美公司的做法,这也确实改变了长期想法。

关于优化数据,OpenAI 几乎不做任何披露,Deepseek 也很多没写,两边就像开了战争迷雾,只能靠猜进行比对。

但即使 OpenAI 的 Effiency 比 Deepseek 高,OpenAI 能够挖掘的算力利用空间也是很大的。

OpenAI 有最高效的 networking,NV 保姆级支持,最好的卡,最好的配置,阶段性在优化少的情况下 Effiency 比 Deepseek 高也是可能的,但 Deepseek 的工程做法还是给了北美大模型公司很多优化上的启示。

更不用提,之前本来在算力应用上就非常粗放的 META 等大模型公司。

5 最重要的

整个故事中最重要的验证点是什么?

应该是大规模可泛化的 Self-play 能否跑通。

本文作者:波太金,来源:共识粉碎机,原文标题:《AI 宏大叙事的验证逻辑

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。