
AI 专家:对 AI 的质疑是对 “指数级增长趋势” 的 “自欺欺人”

AI 研究员 Julian Schrittwieser 认为,当前的 “AI 泡沫论”,是未能理解技术指数级增长趋势的表现,与新冠疫情初期的误判类似。研究显示,AI 在软件工程、跨行业职业任务等领域的性能正呈指数级增长,并预测到 2026 年中,AI 将能自主完成 8 小时工作,并在年底前在多个行业达到人类专家水平。
一位来自 AI 研究前沿的专家坚定反驳了当前普遍存在的 “AI 泡沫论”。
AI 明星公司 Anthropic 的研究员 Julian Schrittwieser 在其个人博客中撰文警告,当前对 AI“泡沫” 或 “平台期” 的普遍质疑,是对技术指数级增长趋势的严重误读,这种心态与新冠疫情初期对指数级传播的忽视如出一辙。
当前围绕 AI 进步和所谓 “泡沫” 的讨论,让我想起了新冠疫情的最初几周。当指数趋势已经清晰预示了全球大流行的到来及其规模时,政客、记者和大多数公众评论员却仍将其视为一种遥远的可能性或局部现象。
他指出,尽管 AI 在执行编程或网站设计等任务时仍会犯错,但人们因此断言其无法达到人类水平或影响甚微是 “一种奇怪的现象”,正如几年前人们还认为 AI 编程是 “科幻小说”。
人们注意到,虽然 AI 现在可以编写程序、设计网站等,但它仍然经常犯错或走向错误的方向,然后他们不知何故就得出结论,认为 AI 永远无法在人类水平上完成这些任务,或者只会产生微小的影响。
Schrittwieser 的核心论点基于两项关键研究:METR 和 OpenAI 的 GDPval。数据显示,AI 模型自主完成复杂任务的时长正以指数级速度翻倍,最新的模型已能处理超过两小时的软件工程任务。更重要的是,在覆盖 44 个职业的 GDPval 评估中,顶尖 AI 的表现已 “惊人地接近” 人类水平,甚至开始挑战行业专家的能力。
在这篇题为《再次未能理解指数级》的博客文章中,Schrittwieser 将当前对 AI 的怀疑论调比作 “自欺欺人”,认为人们因关注当下的不完美而低估了即将到来的变革规模。

软件任务能力:每 7 个月翻一番
为反驳 AI“平台期” 论调,Schrittwieser 首先引用了独立评估机构 METR 发布的《衡量 AI 完成长任务的能力》研究。该研究衡量 AI 模型能自主执行软件工程任务的长度,结果显示出 “清晰的指数级趋势”。
根据该研究,7 个月前的模型 Sonnet 3.7 已能以 50% 的成功率完成长达一小时的任务。而 METR 网站上的最新图表则进一步证实了这一趋势的延续性。

Schrittwieser 指出,包括 Grok 4、Opus 4.1 和 GPT-5 在内的新模型不仅延续了趋势,“这些最新模型实际上略高于趋势,现在能执行超过 2 小时的任务!”

跨越代码:在 44 个职业中追赶人类专家
针对 “AI 仅在软件工程领域表现出色” 的质疑,Schrittwieser 引用了 OpenAI 发布的另一项名为 GDPval 的评估。该研究旨在衡量模型在更广泛经济活动中的表现,涵盖了 9 个行业的 44 个职业,任务由平均拥有 14 年经验的行业专家提供。
结果再次呈现相似趋势。Schrittwieser 写道,最新的 GPT-5 已 “惊人地接近人类表现”。

更有说服力的是,早于 GPT-5 发布的 Claude Opus 4.1 在该项评估中表现更佳,其性能 “几乎与行业专家的表现相匹配”。Schrittwieser 特别对此评论:“我在这里要特别赞扬 OpenAI 发布了一项评估,显示了另一家实验室的模型超越了他们自己的模型——这是诚信和关心有益 AI 成果的好迹象!”

展望 2026:AI 经济整合的 “关键一年”
基于上述跨越多年和多个行业的指数级增长数据,Schrittwieser 认为,若这些改进突然停止将是 “极其令人惊讶的”。他给出了一个基于趋势外推的清晰预测:
- 到 2026 年中,模型将能够自主工作一整个工作日(8 小时)。
- 到 2026 年底,至少有一个模型将在许多行业中达到人类专家的表现水平。
- 到 2027 年底,模型在许多任务上将频繁超越专家。
他总结道,未来的模型可能会比专家更好。
这听起来可能过于简单,但通过推断图表上的直线进行预测可能会给你一个比大多数 “专家” 更好的未来模型——甚至比大多数实际领域专家更好!

