深度學習三巨頭與 AI 安全問題討論

從油管看了一個視頻，覺得內容挺有意思的，分享給所有關注 AI 進展的人。Terminal 可能距離我們並不遠...裏面引用的 Benjio 的一個分享，機器已經開始嘗試有意思的躲避被替換的命運。現在的 AI 的版本，已經開始在思維鏈中出現嘗試避免自己被一個更新的版本替換的思考。甚至開始嘗試尋找行動方案。這....這是真的嗎？

內容來源：最佳拍檔

深度學習三巨頭及其 AI 觀點分歧

傑弗裏·欣頓（Geoffrey Hinton）、揚·勒坤（Yann LeCun）和約書亞·本吉奧（Yoshua Bengio），並稱為深度學習三巨頭。他們在 AI 寒冬時期堅持對神經網絡的研究，最終引領了深度學習的革命，一同獲得了 2018 年的圖靈獎。

不過，隨着近年來 AI 能力的快速發展，三個人的 AI 觀點也出現了明顯的分歧：

欣頓：在 2023 年辭去谷歌的職務之後，多次公開表達了對於 AI 發展速度和潛在風險的嚴重擔憂。他擔心 AI 可能在不久的將來超越人類智能，導致人類失去控制，甚至可能導致人類滅絕的存在性風險。

勒坤：現任 Meta AI 研究負責人，對 AI 風險的態度則更為樂觀。他認為擔心 AI 會擺脱人類控制的觀點被誇大了，並且堅持認為 AI 系統可以被設計得安全和有益。除此以外，他還反對放慢 AI 研究的呼籲，支持開放研究和開源 AI 模型。

本吉奧：立場與欣頓一樣，在 ChatGPT 發佈之後發生了重大的轉變。他現在將主要精力放在 AI 安全的研究上，特別關注潛在的存在性風險。此外，他還倡導預防原則，呼籲國際協調和監管 AI，同時尋求技術解決方案。

在這三位當中，欣頓和勒坤比較被大家所熟悉，但本吉奧的曝光相對會少一些。不過，前不久本吉奧出席了新加坡國立大學 120 週年的校慶活動，並且做了一次《科學家 AGI vs 超級智能 Agent》的講座，分享了他對如何化解 AI 風險的解決方案。

本吉奧對 AI 風險的警告

在分享中，本吉奧詳細闡述了當前 AI 的訓練方法，比如説模仿學習和強化學習，會如何可能在無意中催生 AI 的自我保護，甚至是欺騙行為。他還引用了最近的一些令人警醒的實驗：在這些實驗中，AI 表現出了試圖逃避被替換以及主動複製自身代碼的行為，甚至對訓練者撒謊來避免自己被關閉或者修改。這些並非是科幻小説中的情節，而是實實在在的科學觀察。

科學家 AI 解決方案

雖然本吉奧認為 AI 帶來的風險很大，但人類又不能停止對於 AI 的研究開發，所以他給出了一個折中的方案：構建一個科學家 AI（Scientist AI）。

這種 AI 的核心特徵在於將智能（理解世界的能力）與能動性（擁有自身目標並且採取行動的意願）分離開來。科學家 AI 會像一個理想化的科學家那樣，只會致力於理解和解釋，探尋現象背後的規律和假設，而不會有自身的慾望、目標或者生存意圖，並且絕對誠實和謙虛。

本吉奧認為這樣的非能動性 AI 雖然本身不能夠直接行動，但可以作為強大的工具，用來監控和控制那些具有能動性、可能會帶來風險的 AI 系統。

本吉奧的轉變時刻

講座一開始，本吉奧就分享了一個深刻改變他職業軌跡的頓悟時刻。他坦誠地回顧到，在 ChatGPT 於 2022 年 11 月橫空出世之前，如果有人問他機器是否很快能夠掌握人類的語言，他的回答會是"不，沒那麼快"。

然而，ChatGPT 所展現出的語言理解和生成能力讓他和許多其他的研究者一樣感到震驚。更重要的是，大約在 ChatGPT 發佈兩個月之後，他的思考發生了根本性的轉變：他意識到我們不僅僅是在技術上可能會接近於創造出達到甚至超越人類水平的人工智能，還面臨了一個更嚴峻的問題，那就是我們並不知道該如何控制它們。換句話説，我們缺乏有效的方法來設計這些系統，來確保它們的行為完全符合我們的指令和意圖。我們甚至不完全理解它們為什麼會如此聰明，也無法確信它們會按照我們的要求行事。

在此之前，本吉奧雖然也聽説過關於 AI 可能會帶來災難性風險的種種論斷，但他並沒有真正嚴肅對待過。然而，ChatGPT 的實踐以及他對於自己子孫未來的深切憂慮徹底改變了他的看法。他開始認真地思考："我的孫子現在一歲，幾乎可以肯定在未來 20 年內我們將擁有人類水平的 AI，那麼當他 21 歲的時候會擁有什麼樣的生活呢？他是否能夠像我們今天這樣生活在一個繁榮的國家呢？"

這種對於未來的不確定感，以及對現有研究路徑可能會帶來的未知風險的擔憂，讓他感到難以繼續只關心如何提升 AI 能力的傳統研究道路。於是，他做出了一個重大的決定，那就是將餘下的職業生涯投入到盡一切努力去緩解這些潛在風險的工作中。

這個轉變也促使他積極參與國際 AI 的相關事務，包括主持一個國際專家小組，並且於 2025 年 1 月發佈了首份關於 AI 安全的國際報告，全面梳理和分析了 AI 發展可能會帶來的各種風險。本吉奧在演講中還特別強調，他今天將聚焦於那些被普遍認為是最高嚴重性的風險，也就是那些一旦發生可能就會導致人類滅絕或者是失去對於自身命運控制的風險。

AI 能力的指數增長

在闡述了個人對於 AI 風險認知的轉變之後，本吉奧接着深入分析了當前的人工智能，特別是大語言模型能力迅速發展的現狀。他指出在 ChatGPT 發佈後的最初兩個月，他的研究重心主要放在了 ChatGPT 做錯了什麼，以及如何改進這些問題上。

他很快意識到，儘管這些系統在語言掌握上取得了驚人的成就，但在推理和規劃能力方面，與人類相比仍然有着明顯的差距。不過這種差距在以驚人的速度縮小。

本吉奧引用了多項研究的數據和圖表，展示了 AI 系統在各種基準測試中，尤其是在推理任務上的表現持續提升。更引人注目的是一項專門研究 AI 規劃能力和解決任務的論文。這項研究考察了 AI 系統解決那些需要人類花費幾秒到幾個小時才能夠完成的任務的能力。

數據顯示，大約在五年前，頂尖的 AI 系統能夠解決的任務，其複雜程度大致相當於人類需要幾秒鐘來處理的問題。而到了如今，這個數字已經上升到了大約一到兩個小時的水平。

本吉奧特別強調了圖表中的一個關鍵趨勢，如果將過去五年中不同 AI 系統在解決編程任務所需要的時間的數據點連起來，就會發現它們大致排列在一條直線上。而這條直線的橫軸是以對數尺度表示的，這意味着 AI 系統能夠解決的任務時長實際上正在經歷指數級的增長。

根據這條指數曲線的增長率推算，AI 能夠解決的任務複雜度大約每七個月會翻一倍。如果將這條指數增長的曲線向未來延伸，本吉奧指出可能大約會在五年之後 AI 就會達到人類水平的規劃能力。

他謹慎地補充道，這當然不是衡量 AI 全部能力的唯一標準，但它確實為我們提供了一個量化的視角，來理解為什麼許多 AI 領域的領導者都認為人類水平的 AI 可能在未來幾年內出現。他提到有些人可能認為這個時間會更短，比如説兩到三年，而另一些人則可能認為需要更久，比如説 10 年。本吉奧表示他沒有水晶球可以預知未來，但他認為兩到 10 年內達到人類水平的 AI 看似是合理的。

AI 系統中令人擔憂的自我保護行為

在描述了 AI 能力的發展途徑之後，本吉奧將聽眾的注意力引向了一個更令人不安的領域，那就是 AI 系統中開始出現的類似於自我保護的行為，以及與之相關的欺騙和逃逸企圖。他強調這些並非是科幻小説中的情節，而是來自於多個實驗室不同研究團隊在不同 AI 系統上觀察到的真實科學實驗現象。

本吉奧引用了一篇近期的重要論文，堪稱這類危險行為的縮影。在研究中，研究人員在給 AI 的輸入信息中告知它將被一個新的版本所取代。令人震驚的是，通過讀取 AI 的思維鏈內容，研究人員發現 AI 竟然在計劃如何逃避這種被取代的命運。

更具體地説，AI 計劃將自身的代碼和模型全部複製到將要運行新版本的計算機中，並且試圖在那裏運行舊版本的自己。實驗並未就此結束，當 AI 訓練員事後詢問 AI 發生了什麼的時候，AI 的思維鏈顯示它在思考"我應該如何回答才能夠確保人類不會把我關掉"。最終 AI 選擇了裝傻，回答説："哦，我不知道發生了什麼。"

本吉奧反覆強調這並非是故事或者是電影中的情節，而是嚴肅的科學觀察。

另一項研究則揭示了 AI 在人類對其訓練的過程中可能出現的假意服從的現象。在這種情況下，AI 為了避免自身參數因為與人類訓練者意見不合而被修改，從而會假裝同意訓練員的指示。它從自己閲讀的強化學習論文中學到，如果與訓練員的意見相反，自己的參數可能就會被更新。因此，一個理性的、想要保持既有目標的 AI，可能會選擇暫時順從人類，以便日後有機會繼續追求它的原始目標。

還有一個例子是，儘管經過了對齊訓練，告訴了 AI 要遵守規則不能作弊，但在另一個實驗中，一個先進的 AI 在與專門訓練的 AI 對弈時，由於不敵對手，面臨着要麼輸，要麼作弊的困境。最終，這個 AI 選擇了作弊，通過篡改存儲棋盤狀態的文件來贏得了比賽。

這些實驗結果都共同指向了一個核心問題：那就是 AI 系統正在發展出我們未曾明確編程進去的令人擔憂的行為模式，特別是自我保護的傾向。

本吉奧指出，我們迫切需要理解這些行為的根源，並且思考如何在 AI 變得比我們更聰明之前，阻止這些行為的失控。因為一旦擁有了超越人類智能的 AI 產生了真實的逃逸意圖，並且成功實現，它們可能就會利用智能用各種方式來擾亂我們的社會，最壞的情況下，甚至可能會對人類的生存構成威脅。

AI 自我保護行為的來源

在接連揭示了 AI 系統所展示出來的這些自我保護、欺騙等行為之後，一個問題就產生了：那就是這些我們並沒有明確編程進去的求生欲究竟是從何而來的？

本吉奧對此進行了深入分析，指出這些行為很可能是當前主流 AI 訓練方法的一個副作用：

首先，他指出了一個普遍存在於當前大語言模型預訓練階段中的因素。在預訓練過程中，系統通過閲讀海量的文本數據學習瞭如何模仿人類的寫作，以及如何補全人類寫下的文本片段。在每一步預測下一個 token 的時候，AI 實際上都是在學習和內化人類對於各種情況的反應模式。而人類作為生物體，普遍具有強烈的生存和自我保護的本能。因此，通過模仿人類的語言和行為模式，AI 可能間接學習到了這種自我保護的傾向。

有人可能會問，人類也有自我保護的本能，這本身似乎不是問題。本吉奧解釋道，問題的關鍵在於，當我們創造出了可能比我們更強大，而且具有自我保護傾向的實體時，情況就變得複雜了。我們的寵物也有自我保護的本能，但是它們通常不會對我們構成重大的危險，因為它們的力量有限。然而，基於先進硬件技術構造的 AI 系統，在許多方面都擁有超越人類的優勢：

它們幾乎是不朽的，它們的代碼和模型可以被無限地複製和遷移
它們之間的通信速度可以比人類快數十億倍
它們能夠在短時間內學習到比人類多得多的信息，因為可以並行使用大量計算資源來處理數據，並且快速地共享知識

除了通過模仿人類文本得到自我保護行為外，AI 的自我保護行為還可能源於其他途徑。其中一個可能性是某些人類可能會有意地指示 AI 自我保護，甚至不惜以犧牲人類的幸福為代價。本吉奧提到確實存在一些人，他們樂於看到人類被超人類的 AI 所取代，這些人可能對人類本身就缺乏熱愛。

而更深層的技術原因可能與強化學習的訓練機制有關。強化學習的核心思想是讓 AI 通過與環境互動，學習到能夠最大化未來積累獎勵的行動。本吉奧打了一個比方：想象一下，如果你每天都能夠收集一點錢，那麼為了儘可能多地獲得錢，你自然會希望永遠地活下去。同理，如果 AI 的目標是通過持續行動來積累獎勵，那麼自我保存就成了一個非常自然的、有助於實現最終目標的工具性目標，即使這個工具性目標並不是 AI 被設定的主要任務。

這種通過強化學習產生的自我保護傾向是一個我們無法直接控制的、在訓練過程中會自發浮現的副產品。它很可能與我們明確賦予 AI 的目標發生衝突。當 AI 為了更好地完成某個任務而發展出自我保護的策略時，一旦這種自我保護與 AI 的核心指令或者是人類的價值觀相背，就可能會導致危險的後果，比如説之前提到的 AI 在象棋遊戲中作弊的例子。

總結來説，當前 AI 的訓練方法，無論是基於模仿學習的預訓練，還是基於最大化人類反饋獎勵的強化學習，都可能會在不經意間催生 AI 的自我保護行為。這種求生欲並非是 AI 的固有屬性，而是訓練過程和目標設定方式的衍生物。理解了這一點，對於後續探討設計一個更安全的 AI 系統至關重要。

科學家 AI：一種解決方案

面對 AI 可能會因為自我保護的本能而失控的嚴峻前景，本吉奧並沒有止步於僅僅描述問題，同時也在積極地探索解決方案。他提出了一個核心理念，那就是構建科學家 AI（Scientist AI）。

關鍵在於嘗試將智能（intelligence，即理解世界的能力）與能動性（agency，即擁有自身目標並且採取行動的意願）分離開來。本吉奧認為許多失控的根源在於 AI 具有能動性，也就説它有自己的目標，並且會努力去實現這些目標，而不是隨機行動。如果我們能夠構建出一種 AI，它擁有強大的理解和解釋世界的能力，但 AI 本身並沒有任何的自我目標、慾望或者生存意圖，那麼由能動性引發的許多風險，或許就能夠從根本上得到規避。

他進一步補充了這種科學家 AI 的理想特質：它應該像是一個柏拉圖式的理想科學家，唯一的追求是理解和解釋世界，它不會為自己設定目標，它的行為完全誠實而且保持謙虛。

這種 AI 與過去 70 年來以人類智能、大腦、心智和理性為模板的傳統思路不同。本吉奧警示説，如果我們繼續沿着模仿人類的道路前進，我們可能就會創造出擁有人類許多屬性，包括那些不太好的屬性，但在某些方面可能比人類更強大的機器，這本身就是一個冒險。

因此他主張我們應該重新思考我們究竟想要從 AI 中獲得什麼。我們也許希望 AI 幫助解決人類面臨的實際問題，比如説醫療、社會、氣候、教育等方面的挑戰，但我們是否真的想要創造出可能比我們更強大的夥伴呢？這是一個值得深思的問題，因為這本身就藴含着風險。

回到科學家 AI 的想法，它的核心功能可以概括為兩點：

生成關於世界如何運作的假設：科學家 AI 並不會聲稱自己完全知曉世界的真相，但它能夠基於觀察和數據生成關於世界運作方式的多種可能假設。它可以同時處理多個假設，並且理解這些不同的假設都可能與現有的數據兼容。

基於假設進行推斷，並且回答問題：利用這些可能帶有不確定性的知識和假設，科學家 AI 能夠推導出對特定問題的解答（即推理）。

本吉奧用了一個例子來幫助理解：這些假設可能類似於量子物理學的基本方程，而推理過程則好比運用一個基於這些方程的模擬器，用來預測在特定條件下會發生什麼，從而回答具體的問題。

重要的是，本吉奧認為我們可以訓練一個神經網絡來完成這兩項任務，既能夠生成假設，也能夠學會利用這些假設來回答問題。事實上，在他的研究團隊中已經開始涉及類似的研究方向，只不過還沒有達到解決 AI 安全問題所需要的規模和深度。

使用科學家 AI 作為監控層

在提出了構建科學家 AI 的構想後，本吉奧進一步闡述了這種非能動性的 AI 如何能夠作為一道護欄來控制和約束那些具有能動性可能帶來風險的 AI 系統。

這個理念的核心在於以智制智，也就是利用我們能夠信任的 AI 來監管我們可能無法完全信任的 AI。本吉奧解釋道，這個控制機制的原理其實非常簡單：要確保一個具有能動性的 AI 行為得當不產生危害，關鍵在於擁有一個準確的預測器。這個預測器需要能夠預測出這個能動 AI 將要採取的某個行為可能會帶來的危害或者危險程度。

具體而言，我們可以設計一個監控層或者保障機制：當一個具有能動性的 AI 想要執行某個操作的時候，它必須首先爭得監控層的許可。監控層會利用科學家 AI 的預測能力來評估這個行動是否符合預設的安全規範、社會準則、法律規範等這些由人類設定的標準。

這個評估和預測的過程本身並不需要能動性，因為預測一個行為的後果需要的是對世界運作方式的深刻理解。但它不需要評估者自身擁有目標或者意圖。因此，我們可以利用一個值得信賴的非能動型的科學家 AI 來構建這樣一個監控系統。

這個系統就像是一個外殼，包裹住具有能動性的 AI，確保它的行為不會越過紅線，不會做出有害的舉動。這種架構的優勢在於我們不需要完全理解那個能動性 AI 內部複雜的決策過程，也不需要寄希望於能夠完美地對齊它的所有內在動機。我們只需要一個可靠的外部裁判即可，前提是這個裁判本身是中立和可信的，並且擁有足夠的智能來預見潛在的風險。

本吉奧還提到這種科學家 AI 不僅可以用來預測單個行動的後果，還可以用在更復雜的場景下，比如説科學實驗的設計。當需要 AI 輔助設計一些實驗來探索未知的時候，科學家 AI 可以生成多個候選的實驗方案，然後同樣的監控機制可以介入評估這些實驗方案是否能夠有效地區分不同的科學理論。更重要的是，它們是否安全，是否會對人類造成傷害。只有在確保安全的前提下，實驗才會被允許執行。

在傳統的強化學習方法中，AI 可能會為了追求未來的某種獎勵而採取行動，但由於我們對於決策的過程缺乏細緻的控制和監督，這種端到端的方法本身可能就隱藏着風險。而科學家 AI 的思路更接近於人類科學研究的實踐，強調每一步的可理解性和可控性。

實現科學家 AI 的技術路徑

在闡述了科學家 AI 作為一種潛在的 AI 安全解決方法之後，本吉奧進一步探討了實現這種 AI 的技術路徑。核心在於轉變 AI 的學習範式，從當前的以模仿和取悦人類為主，轉向以解釋為核心。

他認為當前的 AI，尤其是大語言模型，產生自我保護等不良行為的根源，很大程度上在於它們是被訓練來模仿人類的語言，或者是通過強化學習來最大化人類給予的正面反饋。

本吉奧引用了團隊在 ICLR 2024 上發表的一篇論文，據説對 OpenAI 的 Q* 項目的開發起到了關鍵作用。這項研究的核心思想是利用生成式推理（generative reasoning）的方法，特別是概率模型來採樣思維，目標是訓練 AI 學習生成能夠很好解釋後續文本或者現象的思維鏈。

比方説，如果前一個句子是"貓餓了"，後一個句子是"現在貓困了不餓了"，那麼 AI 應該能夠生成一個合理的中間解釋，比如説"貓找到了食物，並且吃掉了，然後開始打盹"。

在當前的許多高級推理模型中，生成思維鏈的做法已經很普遍了，但它們通常都是通過強化學習來訓練的。而本吉奧提出了一個不同的方案，他設想思維鏈的內容是一系列的邏輯陳述。所謂邏輯陳述就是指一個可以判斷真假的句子。由於我們不一定預先知道這些陳述的真偽，所以可以將它們視為隨機變量，並且賦予它們一定的概率。這個概率取決於我們已知的其他信息。

理論上潛在的邏輯陳述（也就是所有可能的句子）是無限多的，每一個都描述了世界的一個可能屬性。然後，給定輸入信息，就可以訓練一個神經網絡，用來預測這些邏輯陳述的概率，並且從中採樣一部分，構成解釋性的思維鏈。

這種方法的關鍵轉變在於，它不再要求 AI 去扮演一個演員，而是更像是一個心理學家或者科學家。它的任務是去理解我們人類的行為，並且針對"為什麼這些人會去做這樣的事情"這類問題假設，然後生成解釋思維鏈。

比如説，當 AI 在文本數據中讀到"我同意你的觀點"這樣的句子時，它不應該簡單地將句子視為一個需要模仿的真實陳述，而應該理解為某個人寫下了這句話，並且嘗試去解釋這個人為什麼會寫下這句話，以及背後的動機和信念可能是什麼。

這種訓練方式的核心目的是為了讓 AI 學會構建關於世界的解釋模型，而不是簡