剛剛，DeepMind 最強「基礎世界模型」誕生！單圖生 1 分鐘遊戲世界，解鎖下一代智能體

就在剛剛，谷歌 DeepMind 的第二代大規模基礎世界模型 Genie 2 誕生了！ 從此，AI 可以生成各種一致性的世界，最長可玩 1 分鐘。 谷歌研究人員表示，相信 Genie 2 可以解鎖具身智能體的下一波能力。 從第一人稱的真實世界場景，到第三人稱的駕駛環境，Genie 2 生成了一個 720p 的世界。 給定一幅圖像，它就能模擬出世界動態，創建一個可通過鍵盤和鼠標輸入的、可操作的一致環境。 具身智能體的潛力有多大？ 在以下這個 Imagen 3 生成的世界中，研究者測試出最新的智能體是否可以遵循語言指令，走到紅門或藍門。 結果令人驚喜！ 就這樣，現在我們擁有了一條通往無限環境的道路，來訓練和評估具身智能體了。 研究者創造了一個有 3 個拱門的世界後，Genie 2 再次模擬了這個世界，讓團隊解決了任務。 對此，網友們紛紛表示讚歎：」這項工作實在是太棒了！今後，我們終於可以將開放式智能體與開放世界模型結合起來。我們正在朝着近乎無限的訓練數據體系邁進。」 還有網友表示：「黑客帝國」的世界，要來了！ 為未來的通用智能體，生成無限多樣的訓練環境 作為一種基礎世界生成模型，Genie 2 能生成無限多樣的、可操控且可玩的 3D 環境，用於訓練和評估具身智能體。 基於一張提示詞圖像，它就可被人類或 AI 智能體操作了！方式是使用鍵盤和鼠標輸入。 在 AI 研究中，遊戲一直扮演着至關重要的角色。因為具有以引人入勝的特性、獨特的挑戰組合以及可衡量的進展，遊戲成為了安全測試和提升 AI 能力的理想環境。 自 Google DeepMind 成立以來，遊戲一直都是研究的核心——從早期的 Atari 遊戲研究，到 AlphaGo 和 AlphaStar 等突破性成果，再到與遊戲開發者合作研究通用智能體。 然而，訓練更通用的具身智能體，卻因缺乏足夠豐富和多樣化的訓練環境而受到限制。 但現在，Genie 2 的誕生改變了一切。 從此，未來的智能體可以在無限的新世界場景中進行訓練和評估了。 交互式體驗原型設計的新型創意工作流程，也有了全新的可能性。 基礎世界模型的湧現能力 迄今為止，世界模型在很大程度上都受限於對狹窄領域的建模。 在 Genie 1 中，研究人員引入了一種生成多樣化二維世界的方法。 而到了 Genie 2 這一代，在通用性上實現了重大突破——它能生成豐富多樣的 3D 世界了。 Genie 2 是一種世界模型，這就意味着，它可以模擬虛擬世界，包括採取任何行動（如跳躍、游泳等）的後果。 基於大規模視頻數據集進行訓練後，它像其他生成式 AI 模型一樣，展現出了各種規模的湧現能力，例如物體交互、複雜的角色動畫、物理效果、建模、預測其他智能體行為的能力等等。 對於每個人類與 Genie 2 互動的 demo，模型都以由 Imagen 3 生成的單張圖片作為提示詞輸入， 這就意味着，任何人都可以用文字描述自己想要的世界，選擇自己喜歡的渲染效果，然後進入這個新創建的世界，並且與之互動（或者，也可以讓 AI 智能體在其中被訓練或評估）。 每一步，人或智能體都能通過鍵盤和鼠標提供動作，而 Genie 2 會模擬下一步的觀察結果。 在長達一分鐘的時間裏，Genie 2 可以生成一個一致的世界，持續時間直接長達 10-20 秒！ 動作控制 Genie 2 能夠智能響應通過鍵盤按鍵採取的動作，識別角色並正確移動。 例如，模型必須計算出，箭頭鍵應該移動機器人，而不是移動樹木或雲朵。 一個在樹林中的可愛的人形機器人 一個在古埃及的人形機器人 在紫色的星球上，以機器人第一人稱視角觀察 在現代都市的公寓中，以機器人第一人稱視角觀察 生成反事實 Genie 2 能夠基於同一個開始畫面，創造出多個不同的發展。 這意味着我們可以為 AI 訓練提供各種「如果這樣做會怎樣」的場景。 在下面的這兩行 demo 中，每個視頻都會從完全相同的畫面開始，但人類玩家會選擇不同行動。 長時間記憶 Genie 2 能夠記住那些暫時離開畫面的場景，並在它們重新進入視野時，精確地還原出來。 持續生成新場景 Genie 2 能在過程中實時創造出符合邏輯的新場景內容，並且可以在長達一分鐘的時間內保持整個世界的一致性。 多樣化環境 Genie 2 能夠生成多種不同的觀察視角，比如第一人稱視角、等距視角（45 度俯視角）或第三人稱駕駛視角。 3D 結構 Genie 2 能夠創建複雜的 3D 視覺場景。 物體屬性與交互 Genie 2 能夠建模各種物體交互，例如氣球爆裂、開門和射擊炸藥桶。 角色動畫 Genie 2 能夠為不同類型的角色，製作各種動作的動畫。 NPC Genie 2 能夠為其他智能體建模，甚至與它們進行復雜交互。 物理效果 Genie 2 能夠模擬出水面的動效。 煙霧 Genie 2 能夠模擬煙霧的效果。 重力 Genie 2 能夠模擬重力。 光照 Genie 2 能夠模擬點光源和方向光。 反射 Genie 2 能夠模擬反射、泛光和彩色光照。 基於真實圖像的模擬 Genie 2 還可以將真實世界的圖像作為提示詞輸入，並模擬出草葉在風中搖曳或河水流動等場景。 快速創建測試原型 有了 Genie 2，製作多樣化的交互場景就變得簡單了。 研究人員可以快速嘗試新環境，來訓練和測試具身 AI 智能體。 例如，下面就是研究人員向 Genie 2 輸入 Imagen 3 生成的不同圖像，來模擬操控紙飛機、飛龍、獵鷹或降落傘等不同的飛行方式。 在這個過程中，也同時測試了 Genie 處理不同控制對象動作時的表現。 憑藉強大的離散泛化能力，Genie 2 可以將概念設計圖和手繪草圖轉化為可實際交互的場景。 從而讓藝術家和設計師能夠快速驗證創意，提升場景設計的效率，並加快相關研究的進度。 以下是由概念設計師創作出的一些虛擬場景示例。 AI 智能體在世界模型中行動 藉助 Genie 2，研究人員能夠快速構建出豐富多樣的虛擬環境，並創造全新的評估任務，來測試 AI 智能體在從未接觸過的場景中的表現。 下面這個 demo，就是由谷歌 DeepMind 與遊戲開發者共同開發的 SIMA 智能體，它能夠在 Genie 2 僅通過一張圖片生成的全新環境中，準確理解並完成各種指令。 prompt：一張第三人稱開放世界探索遊戲的截圖。畫面中的玩家是一名在森林中探索的冒險者。左邊有一座紅門的房子，右邊有一座藍門的房子。鏡頭正對着玩家的身後。#寫實風格 #身臨其境 SIMA 智能體的目標是，能夠在多樣化的 3D 遊戲環境中，通過自然語言指令完成各種任務。 在這裏，團隊使用 Genie 2 生成了一個包含兩扇門（藍色和紅色）的 3D 環境，並向 SIMA 智能體提供了打開每扇門的指令。 過程中，SIMA 通過鍵盤和鼠標來控制遊戲角色，而 Genie 2 負責實時生成遊戲畫面。 打開藍色的門 打開紅色的門 不僅如此，我們還可以藉助 SIMA 來評估 Genie 2 的各項能力。 比如，通過讓 SIMA 在場景中四處查看並探索房屋背後的區域，測試 Genie 2 是否能夠生成一致性的環境。 轉身 去房子後面 儘管這項研究還處於起步階段，無論是 AI 智能體的表現，還是環境的生成都還有待提升。 但研究人員認為，Genie 2 是解決安全訓練具身智能體這一結構性問題的路徑，同時也能夠實現通向通用人工智能（AGI）所需的廣度和通用性。 prompt：一個電腦遊戲場景，展示了一座粗獷的石洞或礦洞內部。畫面採用第三人稱視角，鏡頭在主角上方俯視着。主角是一位手持長劍的騎士。騎士面前矗立着三座石砌的拱門，他可以選擇進入任一道門。透過第一扇門，可以看到隧道內生長着散發熒光的奇異綠色植物。第二扇門後是一條長廊，洞壁上佈滿了鉚接的鐵板，遠處隱約透出令人不安的光芒。第三扇門內則是一段粗糙的石階，蜿蜒通向未知的高處。 走上樓梯 去有植物的地方 去中間的門 擴散世界模型 Genie 2 是一種基於大規模視頻數據集訓練的自迴歸潛變量擴散模型。 其中，視頻的潛變量幀首先先會由自動編碼器進行處理，然後被傳遞給一個基於類似 LLM 中因果掩碼訓練的大規模 Transformer 動態模型。 在推理階段，Genie 2 可以以自迴歸的方式進行採樣，逐幀利用單個動作和先前的潛變量幀。期間，無分類器指導（classifier-free guidance）會被用於提高動作的可控性。 值得注意的是，上文中的演示均由未經蒸餾的「滿血版」基礎模型生成，從而充分地展示技術潛在的能力。 當然，也可以實時運行經過蒸餾的版本（distilled version），但輸出質量會相應降低。 花絮 除了這些酷炫的 demo 之外，團隊還在生成過程中發現了很多有意思的花絮： 在花園裏站着發呆，突然間，一個幽靈出現了 這位朋友更喜歡在雪場裏跑酷，而不是老老實實地用滑雪板滑雪 能力越大，責任越大 致謝 最後，谷歌 DeepMind 團隊放出了一個長長的致謝名單。 參考資料：https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/ 本文來源：新智元，原文標題：《剛剛，DeepMind 最強「基礎世界模型」誕生！單圖生 1 分鐘遊戲世界，解鎖下一代智能體》風險提示及免責條款 市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。