過去一個月，AI 在多個領域出現了巨大的飛躍。賓夕法尼亞大學沃頓商學院教授 Ethan Mollick 在近日一篇文章中，總結了他所觀察到的人工智能最新進展，以及這些進展的含義。Mollick 的專業是研究創業與創新以及人工智能，並致力於探索人工智能對工作和教育的意義。Mollick 觀察到，人工智能在近一個月發生了突破性的進展：<blockquote>（1）在以 GPT-4 為代表的智能人工智能已經無處不在的情況下，更聰明的人工智能正在出現，尤其是 Gen3 和 o1 模型的發佈；（2）隨着視覺功能的引入，ChatGPT 和 Gemini 現在都可以同時觀看實時視頻和語音交互。能夠通過最常見的人類感官（視覺和聲音）與人類實時互動的模型將 AI 變成與您同在房間裏的陪伴者，而不是被困在計算機上聊天框中的實體；（3）AI 視頻突然變得非常好，但真正的飛躍來自上週出現的人工智能文本轉視頻生成器。</blockquote>Mollick 表示，我們還遠遠沒有看到人工智能進步的終結，引人注目的不僅僅是個別的突破，而是變革的速度和廣度。人工智能正以以不均勻的速度大幅跨越，甚至超出了人類能輕鬆衡量其影響的能力。以下為 Mollick 文章全文翻譯：上個月，人工智能的狀況發生了變化，僅在上週，變化速度就急劇加快。人工智能實驗室推出了大量新產品，有些是革命性的，有些是漸進式的，讓人難以跟上。我相信，這些變化中有幾個是真正的突破，將重塑人工智能（也許還有我們的）的未來。以下是我們的現狀：<h2 id="rtjcplc9o">智能人工智能如今無處不在</h2>去年年底，只有一個公開可用的 GPT-4/ Gen2 類模型，那就是 GPT-4。現在有六到十個這樣的模型，其中一些是開源的，這意味着任何人都可以免費使用或修改它們。來自美國的有 OpenAI 的 GPT-4o、Anthropic 的 Claude Sonnet 3.5、谷歌的 Gemini 1.5、Meta 的開放 Llama 3.2、埃隆·馬斯克的 Grok 2 和亞馬遜的新 Nova。中國公司已經發布了三種似乎具有 GPT-4 級性能的開放多語言模型，尤其是阿里巴巴的 Qwen、R1 的 DeepSeek 和 01.ai 的 Yi。歐洲在這個領域只有一家參與者，那就是法國的 Mistral。這一堆令人困惑的名字意味着，構建有能力的人工智能並非只涉及 OpenAI 獨有的神奇公式，而是任何擁有計算機科學人才以及能夠獲得訓練模型所需的芯片和算力的公司都能夠做到。事實上，GPT-4 級別的人工智能在發佈時令人震驚，引發了人們對未來的極大擔憂，而現在它可以在我的家用電腦上運行了。Meta 本月發佈的最新小型型號名為 Llama 3.3 ，它提供了類似的性能，並且可以在我的遊戲電腦上完全離線運行。微軟新推出的微型 Phi 4 是 GPT-4 級別的，幾乎可以在手機上運行，而其性能稍差的前代產品 Phi 3.5 更是可以。某種程度上的智能是按需提供的。<figure class="image"><img src="https://pub.pbkrs.com/uploads/2024/15cb0179dcd4c1ec398b230276e761b6?x-oss-process=style/lg" alt="" width="1102" height="500" original-src="https://pub.pbkrs.com/uploads/2024/15cb0179dcd4c1ec398b230276e761b6"/></figure>我家用電腦上運行的 Llama 3.3 通過了 “涉及奶酪雙關語的押韻詩” 基準測試，只有幾個不自然的雙關語。而且，正如我所討論過的（很快會再次發佈），這些無處不在的人工智能現在開始為代理提供動力，這些代理是可以追求自己目標的自主人工智能。你可以在我之前的文章中看到這意味着什麼，我使用早期的代理進行購物比較和監控建築工地。<h2 id="zk6ksvko">非常聰明的人工智能現在已經出現</h2>所有這些意味着，如果 GPT-4 級別的性能是 AI 可以達到的最高水平，那麼隨着我們逐漸習慣它們的能力，這可能足以讓我們經歷五到十年的持續變化。但沒有跡象表明 AI 發展即將大幅放緩。我們之所以知道這一點，是因為上個月還有另外兩個重要的發佈——Gen3 模型的首次發佈（你可以將它們視為 GPT-5 類模型）和 o1 模型的發佈，這些模型可以在回答之前 “思考”，這實際上使它們比其他 LLM 的推理能力強得多。我們正處於 Gen3 發佈的早期階段，所以我不會在這篇文章中過多地介紹它們，但我確實想談談 o1。當 o1 以早期的 o1-preview 形式發佈時，我曾討論過它，但兩個更復雜的版本 o1 和 o1-pro 的功能顯著增強。這些模型在回答問題之前會花時間進行隱形 “思考”——模仿人類的邏輯問題解決方式。這種方法稱為測試時間計算，事實證明，它是讓模型更好地解決問題的關鍵。事實上，這些模型現在已經足夠聰明，能夠以大大小小的方式為研究做出有意義的貢獻。舉一個有趣的例子，我讀到一篇關於最近社交媒體恐慌的文章——一篇學術論文指出，黑色塑料餐具可能會毒害人類，因為它們部分是由回收的電子垃圾製成的。該論文指出，一種名為 BDE-209 的化合物從這些餐具中滲出的速率非常高，接近美國環保署設定的安全劑量水平。很多人都扔掉了他們的鍋鏟，但麥吉爾大學的 Joe Schwarcz 認為這沒有道理，並發現了一個數學錯誤，作者在文章的第七頁錯誤地將 BDE-209 的劑量乘以了 10 倍——這個錯誤被論文作者和同行評審員忽略了。我很好奇 o1 是否能發現這個錯誤。因此，我從手機上粘貼了 PDF 文本並輸入：“仔細檢查本文中的數學計算”。就這樣。o1 立即發現了錯誤（其他 AI 模型沒有）。<figure class="image"><img src="https://pub.pbkrs.com/uploads/2024/3c43fe521133025119c0080373f0c358?x-oss-process=style/lg" alt="" width="1456" height="1135" original-src="https://pub.pbkrs.com/uploads/2024/3c43fe521133025119c0080373f0c358"/></figure> 當模型不僅能夠處理整篇學術論文，還能理解 “檢查數學” 的意義所在，然後成功檢查結果時，人工智能的能力就會發生根本性的變化。事實上，我的實驗以及其他人的實驗都激發了人們去研究 o1 能在科學文獻中發現錯誤的頻率。我們不知道 o1 能多頻繁地完成這種壯舉，但找出答案似乎很重要，因為它指向了能力的新前沿。事實上，即使是 o1 的早期版本，即預覽模型，似乎也代表了科學能力的飛躍。哈佛大學、斯坦福大學和其他研究人員發表了一篇令人震驚的醫學工作論文，結論是 “o1-preview 在鑑別診斷、診斷臨牀推理和管理推理方面表現出超人的表現，在多個領域都優於前幾代模型和人類醫生。” 這篇論文還沒有經過同行評審，它並沒有表明人工智能可以取代醫生，但它和上面的結果確實表明，這個世界正在發生變化，不把人工智能作為第二意見可能很快就會成為一個錯誤。<figure class="image"><img src="https://pub.pbkrs.com/uploads/2024/2934461d8cb0542a8d2f01bdbeb5a3da?x-oss-process=style/lg" alt="" width="1156" height="1018" original-src="https://pub.pbkrs.com/uploads/2024/2934461d8cb0542a8d2f01bdbeb5a3da"/></figure>可能更重要的是，越來越多的研究人員告訴我，o1，尤其是 o1-pro，正在產生新穎的想法並解決他們領域中意想不到的問題。問題是，現在只有專家才能評估人工智能是錯還是對。例如，我非常聰明的沃頓商學院同事 Daniel Rock 讓我給 o1-pro 一個挑戰：“讓它使用文獻中沒有的證明來證明神經網絡的通用函數逼近定理，而無需 1）假設無限寬的層和 2）超過 2 層。” 以下是它回覆的內容：<figure class="image"><img src="https://pub.pbkrs.com/uploads/2024/863846e8787b345dfb2512a52a739990?x-oss-process=style/lg" alt="" width="1456" height="1495" original-src="https://pub.pbkrs.com/uploads/2024/863846e8787b345dfb2512a52a739990"/></figure> 這是對的嗎？我不知道。這超出了我的專業領域。丹尼爾和其他看過它的專家乍一看也無法判斷它是否正確，但覺得它足夠有趣，值得研究。事實證明，這個證明是有錯誤的（儘管與 o1-pro 進行更多交互可能會修復這些錯誤）。但結果仍然引入了一些激發進一步思考的新方法。正如丹尼爾向我指出的那樣，當研究人員使用 o1 時，它不需要正確才能有用：“要求 o1 以創造性的方式完成證明實際上是要求它成為研究同事。該模型不必證明正確才有用，它只需幫助我們成為更好的研究人員。”我們現在擁有的人工智能似乎能夠解決非常困難的博士級問題，或者至少可以作為研究人員的協同智能有效地解決這些問題。當然，問題是，除非你自己是某個領域的博士，否則你實際上並不知道這些答案是否正確，這為人工智能評估帶來了一系列新挑戰。需要進一步測試才能瞭解它有多大用處，以及在哪些領域有用，但人工智能能力的這一新前沿值得關注。<h2 id="jkk4kf65f">人工智能可以觀察你並和你交談</h2>幾個月來，我們一直使用 AI 語音模型，但上週我們又引入了一項新功能——視覺。ChatGPT 和 Gemini 現在都可以同時觀看實時視頻和語音交互。例如，我現在可以與 Gemini 的新款小型 Gen3 模型 Gemini 2.0 Flash 共享實時屏幕。或者更好的是，您可以免費試用。説真的，體驗一下這個系統能做什麼是值得的。Gemini 2.0 Flash 仍然是一個內存有限的小型模型，但您開始明白這一點了。能夠通過最常見的人類感官（視覺和聲音）與人類實時互動的模型將 AI 變成與您同在房間裏的陪伴者，而不是被困在計算機上聊天框中的實體。ChatGPT 高級語音模式可以通過手機執行相同的操作，這意味着數百萬用户都可以廣泛使用此功能。隨着 AI 在我們生活中變得越來越普遍，其影響將非常深遠。<h2 id="3xsvowei">AI 視頻突然變得非常好</h2>在過去的一年裏，人工智能圖像創建技術取得了令人印象深刻的進展，在我的筆記本電腦上運行的模型可以生成與真實照片難以區分的圖像。它們也變得更容易操控，可以對 “使用藍牙的飛機上的水獺” 和 “使用 wifi 的飛機上的水獺” 等提示做出適當的反應。如果你想自己嘗試一下，谷歌的 ImageFX 是一個非常簡單的界面，可以使用上週發佈的強大的 Imagen 3 模型。<figure class="image"><img src="https://pub.pbkrs.com/uploads/2024/7fff5ba334058de911b327da619cae71?x-oss-process=style/lg" alt="" width="1456" height="362" original-src="https://pub.pbkrs.com/uploads/2024/7fff5ba334058de911b327da619cae71"/></figure>但上週真正的飛躍來自人工智能文本轉視頻生成器。此前，中國公司的人工智能模型通常代表着視頻生成領域的最新水平，包括令人印象深刻的系統如 Kling ，以及一些開源模型。但情況正在迅速改變。首先，OpenAI 發佈了其強大的 Sora 工具，然後谷歌發佈了功能更強大的 Veo 2 視頻創建器，這已成為最近的一個主題。如果您訂閲 ChatGPT Plus，您現在就可以使用 Sora ，這是值得一試的，但我提前獲得了 Veo 2 的使用權（據説將在一兩個月後推出），它……令人驚歎。展示總是比講述更好，所以請看一下這個 8 秒剪輯的合集（目前的極限，儘管它顯然可以製作更長的電影）。我在每個剪輯中都提供了確切的提示，並且剪輯僅從 Veo 2 製作的第一組電影中選擇（它一次創建四個剪輯），因此沒有從許多示例中挑選。注意物體、陰影和反射的明顯重量和重量，在保持髮型和細節的情況下跨場景的一致性，以及場景與我要求的接近程度（如果你尋找的話，紅色氣球就在那裏）。有錯誤，但現在乍一看很難發現它們（儘管它仍然在努力處理體操，這對視頻模型來説非常困難）。真的令人印象深刻。<h2 id="be6te52jq">這一切意味着什麼？</h2>我將在以後的文章中詳細闡述我的看法，但從中可以吸取的教訓是，無論好壞，我們都還遠遠沒有看到人工智能進步的終結。引人注目的不僅僅是個別的突破——人工智能檢查數學試卷、生成接近電影質量的視頻片段或在遊戲電腦上運行。而是變革的速度和廣度。一年前，GPT-4 感覺像是未來的一瞥。而現在，它基本上已經在手機上運行，而新模型正在捕捉學術同行評審中漏掉的錯誤。這不是穩步的進步——我們看到人工智能以不均勻的速度大幅跨越，超出了我們輕鬆衡量其影響的能力。這表明，當形勢處於動態變化中時，塑造這些技術如何改變你的領域的機會現在就存在，而不是在轉型完成後。

谷歌-C

谷歌-A

科大訊飛

OpenAI

商湯-WR

商湯-W

賓夕法尼亞大學沃頓商學院教授 Ethan Mollick 觀察到，人工智能在近一個月發生了突破性的進展，包括更聰明的人工智能正在出現，尤其是 Gen3 和 o1 模型的發佈；隨着視覺功能的引入，ChatGPT 和 Gemini 現在都可以同時觀看實時視頻和語音交互；AI 視頻突然變得非常好，真正的飛躍來自上週出現的人工智能文本轉視頻生成器。

- 過去一個月，人工智能在多個領域取得突破性進展。  
- 新模型如 Gen3 和 o1 提升了 AI 的推理能力和實時互動能力。  
- AI 視頻生成技術也取得顯著進展，影響深遠。  

過去一個月，AI 的變化是突破性的