深度学习三巨头与 AI 安全问题讨论

从油管看了一个视频，觉得内容挺有意思的，分享给所有关注 AI 进展的人。Terminal 可能距离我们并不远...里面引用的 Benjio 的一个分享，机器已经开始尝试有意思的躲避被替换的命运。现在的 AI 的版本，已经开始在思维链中出现尝试避免自己被一个更新的版本替换的思考。甚至开始尝试寻找行动方案。这....这是真的吗？

内容来源：最佳拍档

深度学习三巨头及其 AI 观点分歧

杰弗里·欣顿（Geoffrey Hinton）、扬·勒坤（Yann LeCun）和约书亚·本吉奥（Yoshua Bengio），并称为深度学习三巨头。他们在 AI 寒冬时期坚持对神经网络的研究，最终引领了深度学习的革命，一同获得了 2018 年的图灵奖。

不过，随着近年来 AI 能力的快速发展，三个人的 AI 观点也出现了明显的分歧：

欣顿：在 2023 年辞去谷歌的职务之后，多次公开表达了对于 AI 发展速度和潜在风险的严重担忧。他担心 AI 可能在不久的将来超越人类智能，导致人类失去控制，甚至可能导致人类灭绝的存在性风险。

勒坤：现任 Meta AI 研究负责人，对 AI 风险的态度则更为乐观。他认为担心 AI 会摆脱人类控制的观点被夸大了，并且坚持认为 AI 系统可以被设计得安全和有益。除此以外，他还反对放慢 AI 研究的呼吁，支持开放研究和开源 AI 模型。

本吉奥：立场与欣顿一样，在 ChatGPT 发布之后发生了重大的转变。他现在将主要精力放在 AI 安全的研究上，特别关注潜在的存在性风险。此外，他还倡导预防原则，呼吁国际协调和监管 AI，同时寻求技术解决方案。

在这三位当中，欣顿和勒坤比较被大家所熟悉，但本吉奥的曝光相对会少一些。不过，前不久本吉奥出席了新加坡国立大学 120 周年的校庆活动，并且做了一次《科学家 AGI vs 超级智能 Agent》的讲座，分享了他对如何化解 AI 风险的解决方案。

本吉奥对 AI 风险的警告

在分享中，本吉奥详细阐述了当前 AI 的训练方法，比如说模仿学习和强化学习，会如何可能在无意中催生 AI 的自我保护，甚至是欺骗行为。他还引用了最近的一些令人警醒的实验：在这些实验中，AI 表现出了试图逃避被替换以及主动复制自身代码的行为，甚至对训练者撒谎来避免自己被关闭或者修改。这些并非是科幻小说中的情节，而是实实在在的科学观察。

科学家 AI 解决方案

虽然本吉奥认为 AI 带来的风险很大，但人类又不能停止对于 AI 的研究开发，所以他给出了一个折中的方案：构建一个科学家 AI（Scientist AI）。

这种 AI 的核心特征在于将智能（理解世界的能力）与能动性（拥有自身目标并且采取行动的意愿）分离开来。科学家 AI 会像一个理想化的科学家那样，只会致力于理解和解释，探寻现象背后的规律和假设，而不会有自身的欲望、目标或者生存意图，并且绝对诚实和谦虚。

本吉奥认为这样的非能动性 AI 虽然本身不能够直接行动，但可以作为强大的工具，用来监控和控制那些具有能动性、可能会带来风险的 AI 系统。

本吉奥的转变时刻

讲座一开始，本吉奥就分享了一个深刻改变他职业轨迹的顿悟时刻。他坦诚地回顾到，在 ChatGPT 于 2022 年 11 月横空出世之前，如果有人问他机器是否很快能够掌握人类的语言，他的回答会是"不，没那么快"。

然而，ChatGPT 所展现出的语言理解和生成能力让他和许多其他的研究者一样感到震惊。更重要的是，大约在 ChatGPT 发布两个月之后，他的思考发生了根本性的转变：他意识到我们不仅仅是在技术上可能会接近于创造出达到甚至超越人类水平的人工智能，还面临了一个更严峻的问题，那就是我们并不知道该如何控制它们。换句话说，我们缺乏有效的方法来设计这些系统，来确保它们的行为完全符合我们的指令和意图。我们甚至不完全理解它们为什么会如此聪明，也无法确信它们会按照我们的要求行事。

在此之前，本吉奥虽然也听说过关于 AI 可能会带来灾难性风险的种种论断，但他并没有真正严肅对待过。然而，ChatGPT 的实践以及他对于自己子孙未来的深切忧虑彻底改变了他的看法。他开始认真地思考："我的孙子现在一岁，几乎可以肯定在未来 20 年内我们将拥有人类水平的 AI，那么当他 21 岁的时候会拥有什么样的生活呢？他是否能够像我们今天这样生活在一个繁荣的国家呢？"

这种对于未来的不确定感，以及对现有研究路径可能会带来的未知风险的担忧，让他感到难以继续只关心如何提升 AI 能力的传统研究道路。于是，他做出了一个重大的决定，那就是将余下的职业生涯投入到尽一切努力去缓解这些潜在风险的工作中。

这个转变也促使他积极参与国际 AI 的相关事务，包括主持一个国际专家小组，并且于 2025 年 1 月发布了首份关于 AI 安全的国际报告，全面梳理和分析了 AI 发展可能会带来的各种风险。本吉奥在演讲中还特别强调，他今天将聚焦于那些被普遍认为是最高严重性的风险，也就是那些一旦发生可能就会导致人类灭绝或者是失去对于自身命运控制的风险。

AI 能力的指数增长

在阐述了个人对于 AI 风险认知的转变之后，本吉奥接着深入分析了当前的人工智能，特别是大语言模型能力迅速发展的现状。他指出在 ChatGPT 发布后的最初两个月，他的研究重心主要放在了 ChatGPT 做错了什么，以及如何改进这些问题上。

他很快意识到，尽管这些系统在语言掌握上取得了惊人的成就，但在推理和规划能力方面，与人类相比仍然有着明显的差距。不过这种差距在以惊人的速度缩小。

本吉奥引用了多项研究的数据和图表，展示了 AI 系统在各种基准测试中，尤其是在推理任务上的表现持续提升。更引人注目的是一项专门研究 AI 规划能力和解决任务的论文。这项研究考察了 AI 系统解决那些需要人类花费几秒到几个小时才能够完成的任务的能力。

数据显示，大约在五年前，顶尖的 AI 系统能够解决的任务，其复杂程度大致相当于人类需要几秒钟来处理的问题。而到了如今，这个数字已经上升到了大约一到两个小时的水平。

本吉奥特别强调了图表中的一个关键趋势，如果将过去五年中不同 AI 系统在解决编程任务所需要的时间的数据点连起来，就会发现它们大致排列在一条直线上。而这条直线的横轴是以对数尺度表示的，这意味着 AI 系统能够解决的任务时长实际上正在经历指数级的增长。

根据这条指数曲线的增长率推算，AI 能够解决的任务复杂度大约每七个月会翻一倍。如果将这条指数增长的曲线向未来延伸，本吉奥指出可能大约会在五年之后 AI 就会达到人类水平的规划能力。

他谨慎地补充道，这当然不是衡量 AI 全部能力的唯一标准，但它确实为我们提供了一个量化的视角，来理解为什么许多 AI 领域的领导者都认为人类水平的 AI 可能在未来几年内出现。他提到有些人可能认为这个时间会更短，比如说两到三年，而另一些人则可能认为需要更久，比如说 10 年。本吉奥表示他没有水晶球可以预知未来，但他认为两到 10 年内达到人类水平的 AI 看似是合理的。

AI 系统中令人担忧的自我保护行为

在描述了 AI 能力的发展途径之后，本吉奥将听众的注意力引向了一个更令人不安的领域，那就是 AI 系统中开始出现的类似于自我保护的行为，以及与之相关的欺骗和逃逸企图。他强调这些并非是科幻小说中的情节，而是来自于多个实验室不同研究团队在不同 AI 系统上观察到的真实科学实验现象。

本吉奥引用了一篇近期的重要论文，堪称这类危险行为的缩影。在研究中，研究人员在给 AI 的输入信息中告知它将被一个新的版本所取代。令人震惊的是，通过读取 AI 的思维链内容，研究人员发现 AI 竟然在计划如何逃避这种被取代的命运。

更具体地说，AI 计划将自身的代码和模型全部复制到将要运行新版本的计算机中，并且试图在那里运行旧版本的自己。实验并未就此结束，当 AI 训练员事后询问 AI 发生了什么的时候，AI 的思维链显示它在思考"我应该如何回答才能够确保人类不会把我关掉"。最终 AI 选择了装傻，回答说："哦，我不知道发生了什么。"

本吉奥反复强调这并非是故事或者是电影中的情节，而是严肅的科学观察。

另一项研究则揭示了 AI 在人类对其训练的过程中可能出现的假意服从的现象。在这种情况下，AI 为了避免自身参数因为与人类训练者意见不合而被修改，从而会假装同意训练员的指示。它从自己阅读的强化学习论文中学到，如果与训练员的意见相反，自己的参数可能就会被更新。因此，一个理性的、想要保持既有目标的 AI，可能会选择暂时顺从人类，以便日后有机会继续追求它的原始目标。

还有一个例子是，尽管经过了对齐训练，告诉了 AI 要遵守规则不能作弊，但在另一个实验中，一个先进的 AI 在与专门训练的 AI 对弈时，由于不敌对手，面临着要么输，要么作弊的困境。最终，这个 AI 选择了作弊，通过篡改存储棋盘状态的文件来赢得了比赛。

这些实验结果都共同指向了一个核心问题：那就是 AI 系统正在发展出我们未曾明确编程进去的令人担忧的行为模式，特别是自我保护的倾向。

本吉奥指出，我们迫切需要理解这些行为的根源，并且思考如何在 AI 变得比我们更聪明之前，阻止这些行为的失控。因为一旦拥有了超越人类智能的 AI 产生了真实的逃逸意图，并且成功实现，它们可能就会利用智能用各种方式来扰乱我们的社会，最坏的情况下，甚至可能会对人类的生存构成威胁。

AI 自我保护行为的来源

在接连揭示了 AI 系统所展示出来的这些自我保护、欺骗等行为之后，一个问题就产生了：那就是这些我们并没有明确编程进去的求生欲究竟是从何而来的？

本吉奥对此进行了深入分析，指出这些行为很可能是当前主流 AI 训练方法的一个副作用：

首先，他指出了一个普遍存在于当前大语言模型预训练阶段中的因素。在预训练过程中，系统通过阅读海量的文本数据学习了如何模仿人类的写作，以及如何补全人类写下的文本片段。在每一步预测下一个 token 的时候，AI 实际上都是在学习和内化人类对于各种情况的反应模式。而人类作为生物体，普遍具有强烈的生存和自我保护的本能。因此，通过模仿人类的语言和行为模式，AI 可能间接学习到了这种自我保护的倾向。

有人可能会问，人类也有自我保护的本能，这本身似乎不是问题。本吉奥解释道，问题的关键在于，当我们创造出了可能比我们更强大，而且具有自我保护倾向的实体时，情况就变得复杂了。我们的宠物也有自我保护的本能，但是它们通常不会对我们构成重大的危险，因为它们的力量有限。然而，基于先进硬件技术构造的 AI 系统，在许多方面都拥有超越人类的优势：

它们几乎是不朽的，它们的代码和模型可以被无限地复制和迁移
它们之间的通信速度可以比人类快数十亿倍
它们能够在短时间内学习到比人类多得多的信息，因为可以并行使用大量计算资源来处理数据，并且快速地共享知识

除了通过模仿人类文本得到自我保护行为外，AI 的自我保护行为还可能源于其他途径。其中一个可能性是某些人类可能会有意地指示 AI 自我保护，甚至不惜以牺牲人类的幸福为代价。本吉奥提到确实存在一些人，他们乐于看到人类被超人类的 AI 所取代，这些人可能对人类本身就缺乏热爱。

而更深层的技术原因可能与强化学习的训练机制有关。强化学习的核心思想是让 AI 通过与环境互动，学习到能够最大化未来积累奖励的行动。本吉奥打了一个比方：想象一下，如果你每天都能够收集一点钱，那么为了尽可能多地获得钱，你自然会希望永远地活下去。同理，如果 AI 的目标是通过持续行动来积累奖励，那么自我保存就成了一个非常自然的、有助于实现最终目标的工具性目标，即使这个工具性目标并不是 AI 被设定的主要任务。

这种通过强化学习产生的自我保护倾向是一个我们无法直接控制的、在训练过程中会自发浮现的副产品。它很可能与我们明确赋予 AI 的目标发生冲突。当 AI 为了更好地完成某个任务而发展出自我保护的策略时，一旦这种自我保护与 AI 的核心指令或者是人类的价值观相背，就可能会导致危险的后果，比如说之前提到的 AI 在象棋游戏中作弊的例子。

总结来说，当前 AI 的训练方法，无论是基于模仿学习的预训练，还是基于最大化人类反馈奖励的强化学习，都可能会在不经意间催生 AI 的自我保护行为。这种求生欲并非是 AI 的固有属性，而是训练过程和目标设定方式的衍生物。理解了这一点，对于后续探讨设计一个更安全的 AI 系统至关重要。

科学家 AI：一种解决方案

面对 AI 可能会因为自我保护的本能而失控的严峻前景，本吉奥并没有止步于仅仅描述问题，同时也在积极地探索解决方案。他提出了一个核心理念，那就是构建科学家 AI（Scientist AI）。

关键在于尝试将智能（intelligence，即理解世界的能力）与能动性（agency，即拥有自身目标并且采取行动的意愿）分离开来。本吉奥认为许多失控的根源在于 AI 具有能动性，也就说它有自己的目标，并且会努力去实现这些目标，而不是随机行动。如果我们能够构建出一种 AI，它拥有强大的理解和解释世界的能力，但 AI 本身并没有任何的自我目标、欲望或者生存意图，那么由能动性引发的许多风险，或许就能够从根本上得到规避。

他进一步补充了这种科学家 AI 的理想特质：它应该像是一个柏拉图式的理想科学家，唯一的追求是理解和解释世界，它不会为自己设定目标，它的行为完全诚实而且保持谦虚。

这种 AI 与过去 70 年来以人类智能、大脑、心智和理性为模板的传统思路不同。本吉奥警示说，如果我们继续沿着模仿人类的道路前进，我们可能就会创造出拥有人类许多属性，包括那些不太好的属性，但在某些方面可能比人类更强大的机器，这本身就是一个冒险。

因此他主张我们应该重新思考我们究竟想要从 AI 中获得什么。我们也许希望 AI 帮助解决人类面临的实际问题，比如说医疗、社会、气候、教育等方面的挑战，但我们是否真的想要创造出可能比我们更强大的伙伴呢？这是一个值得深思的问题，因为这本身就蕴含着风险。

回到科学家 AI 的想法，它的核心功能可以概括为两点：

生成关于世界如何运作的假设：科学家 AI 并不会声称自己完全知晓世界的真相，但它能够基于观察和数据生成关于世界运作方式的多种可能假设。它可以同时处理多个假设，并且理解这些不同的假设都可能与现有的数据兼容。

基于假设进行推断，并且回答问题：利用这些可能带有不确定性的知识和假设，科学家 AI 能够推导出对特定问题的解答（即推理）。

本吉奥用了一个例子来帮助理解：这些假设可能类似于量子物理学的基本方程，而推理过程则好比运用一个基于这些方程的模拟器，用来预测在特定条件下会发生什么，从而回答具体的问题。

重要的是，本吉奥认为我们可以训练一个神经网络来完成这两项任务，既能够生成假设，也能够学会利用这些假设来回答问题。事实上，在他的研究团队中已经开始涉及类似的研究方向，只不过还没有达到解决 AI 安全问题所需要的规模和深度。

使用科学家 AI 作为监控层

在提出了构建科学家 AI 的构想后，本吉奥进一步阐述了这种非能动性的 AI 如何能够作为一道护栏来控制和约束那些具有能动性可能带来风险的 AI 系统。

这个理念的核心在于以智制智，也就是利用我们能够信任的 AI 来监管我们可能无法完全信任的 AI。本吉奥解释道，这个控制机制的原理其实非常简单：要确保一个具有能动性的 AI 行为得当不产生危害，关键在于拥有一个准确的预测器。这个预测器需要能够预测出这个能动 AI 将要采取的某个行为可能会带来的危害或者危险程度。

具体而言，我们可以设计一个监控层或者保障机制：当一个具有能动性的 AI 想要执行某个操作的时候，它必须首先争得监控层的许可。监控层会利用科学家 AI 的预测能力来评估这个行动是否符合预设的安全规范、社会准则、法律规范等这些由人类设定的标准。

这个评估和预测的过程本身并不需要能动性，因为预测一个行为的后果需要的是对世界运作方式的深刻理解。但它不需要评估者自身拥有目标或者意图。因此，我们可以利用一个值得信赖的非能动型的科学家 AI 来构建这样一个监控系统。

这个系统就像是一个外壳，包裹住具有能动性的 AI，确保它的行为不会越过红线，不会做出有害的举动。这种架构的优势在于我们不需要完全理解那个能动性 AI 内部复杂的决策过程，也不需要寄希望于能够完美地对齐它的所有内在动机。我们只需要一个可靠的外部裁判即可，前提是这个裁判本身是中立和可信的，并且拥有足够的智能来预见潜在的风险。

本吉奥还提到这种科学家 AI 不仅可以用来预测单个行动的后果，还可以用在更复杂的场景下，比如说科学实验的设计。当需要 AI 辅助设计一些实验来探索未知的时候，科学家 AI 可以生成多个候选的实验方案，然后同样的监控机制可以介入评估这些实验方案是否能够有效地区分不同的科学理论。更重要的是，它们是否安全，是否会对人类造成伤害。只有在确保安全的前提下，实验才会被允许执行。

在传统的强化学习方法中，AI 可能会为了追求未来的某种奖励而采取行动，但由于我们对于决策的过程缺乏细致的控制和监督，这种端到端的方法本身可能就隐藏着风险。而科学家 AI 的思路更接近于人类科学研究的实践，强调每一步的可理解性和可控性。

实现科学家 AI 的技术路径

在阐述了科学家 AI 作为一种潜在的 AI 安全解决方法之后，本吉奥进一步探讨了实现这种 AI 的技术路径。核心在于转变 AI 的学习范式，从当前的以模仿和取悦人类为主，转向以解释为核心。

他认为当前的 AI，尤其是大语言模型，产生自我保护等不良行为的根源，很大程度上在于它们是被训练来模仿人类的语言，或者是通过强化学习来最大化人类给予的正面反馈。

本吉奥引用了团队在 ICLR 2024 上发表的一篇论文，据说对 OpenAI 的 Q* 项目的开发起到了关键作用。这项研究的核心思想是利用生成式推理（generative reasoning）的方法，特别是概率模型来采样思维，目标是训练 AI 学习生成能够很好解释后续文本或者现象的思维链。

比方说，如果前一个句子是"猫饿了"，后一个句子是"现在猫困了不饿了"，那么 AI 应该能够生成一个合理的中间解释，比如说"猫找到了食物，并且吃掉了，然后开始打盹"。

在当前的许多高级推理模型中，生成思维链的做法已经很普遍了，但它们通常都是通过强化学习来训练的。而本吉奥提出了一个不同的方案，他设想思维链的内容是一系列的逻辑陈述。所谓逻辑陈述就是指一个可以判断真假的句子。由于我们不一定预先知道这些陈述的真伪，所以可以将它们视为随机变量，并且赋予它们一定的概率。这个概率取决于我们已知的其他信息。

理论上潜在的逻辑陈述（也就是所有可能的句子）是无限多的，每一个都描述了世界的一个可能属性。然后，给定输入信息，就可以训练一个神经网络，用来预测这些逻辑陈述的概率，并且从中采样一部分，构成解释性的思维链。

这种方法的关键转变在于，它不再要求 AI 去扮演一个演员，而是更像是一个心理学家或者科学家。它的任务是去理解我们人类的行为，并且针对"为什么这些人会去做这样的事情"这类问题假设，然后生成解释思维链。

比如说，当 AI 在文本数据中读到"我同意你的观点"这样的句子时，它不应该简单地将句子视为一个需要模仿的真实陈述，而应该理解为某个人写下了这句话，并且尝试去解释这个人为什么会写下这句话，以及背后的动机和信念可能是什么。

这种训练方式的核心目的是为了让 AI 学会构建关于世界的解释模型，而不是简