
剛剛,DeepMind 最強「基礎世界模型」誕生!單圖生 1 分鐘遊戲世界,解鎖下一代智能體

谷歌 DeepMind 推出第二代基礎世界模型 Genie 2,能夠生成最長 1 分鐘的可玩遊戲世界。該模型支持從圖像生成動態環境,允許用户通過鍵盤和鼠標進行操作。研究者測試了智能體在生成的環境中遵循語言指令的能力,結果令人驚喜。Genie 2 為訓練和評估具身智能體提供了無限多樣的 3D 環境,標誌着 AI 研究的新進展。
就在剛剛,谷歌 DeepMind 的第二代大規模基礎世界模型 Genie 2 誕生了!

從此,AI 可以生成各種一致性的世界,最長可玩 1 分鐘。
谷歌研究人員表示,相信 Genie 2 可以解鎖具身智能體的下一波能力。
從第一人稱的真實世界場景,到第三人稱的駕駛環境,Genie 2 生成了一個 720p 的世界。
給定一幅圖像,它就能模擬出世界動態,創建一個可通過鍵盤和鼠標輸入的、可操作的一致環境。
具身智能體的潛力有多大?
在以下這個 Imagen 3 生成的世界中,研究者測試出最新的智能體是否可以遵循語言指令,走到紅門或藍門。
結果令人驚喜!
就這樣,現在我們擁有了一條通往無限環境的道路,來訓練和評估具身智能體了。
研究者創造了一個有 3 個拱門的世界後,Genie 2 再次模擬了這個世界,讓團隊解決了任務。
對此,網友們紛紛表示讚歎:」這項工作實在是太棒了!今後,我們終於可以將開放式智能體與開放世界模型結合起來。我們正在朝着近乎無限的訓練數據體系邁進。」
還有網友表示:「黑客帝國」的世界,要來了!
為未來的通用智能體,生成無限多樣的訓練環境
作為一種基礎世界生成模型,Genie 2 能生成無限多樣的、可操控且可玩的 3D 環境,用於訓練和評估具身智能體。
基於一張提示詞圖像,它就可被人類或 AI 智能體操作了!方式是使用鍵盤和鼠標輸入。
在 AI 研究中,遊戲一直扮演着至關重要的角色。因為具有以引人入勝的特性、獨特的挑戰組合以及可衡量的進展,遊戲成為了安全測試和提升 AI 能力的理想環境。
自 Google DeepMind 成立以來,遊戲一直都是研究的核心——從早期的 Atari 遊戲研究,到 AlphaGo 和 AlphaStar 等突破性成果,再到與遊戲開發者合作研究通用智能體。
然而,訓練更通用的具身智能體,卻因缺乏足夠豐富和多樣化的訓練環境而受到限制。
但現在,Genie 2 的誕生改變了一切。
從此,未來的智能體可以在無限的新世界場景中進行訓練和評估了。
交互式體驗原型設計的新型創意工作流程,也有了全新的可能性。
基礎世界模型的湧現能力
迄今為止,世界模型在很大程度上都受限於對狹窄領域的建模。
在 Genie 1 中,研究人員引入了一種生成多樣化二維世界的方法。
而到了 Genie 2 這一代,在通用性上實現了重大突破——它能生成豐富多樣的 3D 世界了。
Genie 2 是一種世界模型,這就意味着,它可以模擬虛擬世界,包括採取任何行動(如跳躍、游泳等)的後果。
基於大規模視頻數據集進行訓練後,它像其他生成式 AI 模型一樣,展現出了各種規模的湧現能力,例如物體交互、複雜的角色動畫、物理效果、建模、預測其他智能體行為的能力等等。
對於每個人類與 Genie 2 互動的 demo,模型都以由 Imagen 3 生成的單張圖片作為提示詞輸入,
這就意味着,任何人都可以用文字描述自己想要的世界,選擇自己喜歡的渲染效果,然後進入這個新創建的世界,並且與之互動(或者,也可以讓 AI 智能體在其中被訓練或評估)。
每一步,人或智能體都能通過鍵盤和鼠標提供動作,而 Genie 2 會模擬下一步的觀察結果。
在長達一分鐘的時間裏,Genie 2 可以生成一個一致的世界,持續時間直接長達 10-20 秒!
動作控制
Genie 2 能夠智能響應通過鍵盤按鍵採取的動作,識別角色並正確移動。
例如,模型必須計算出,箭頭鍵應該移動機器人,而不是移動樹木或雲朵。
生成反事實
Genie 2 能夠基於同一個開始畫面,創造出多個不同的發展。
這意味着我們可以為 AI 訓練提供各種「如果這樣做會怎樣」的場景。
在下面的這兩行 demo 中,每個視頻都會從完全相同的畫面開始,但人類玩家會選擇不同行動。
長時間記憶
Genie 2 能夠記住那些暫時離開畫面的場景,並在它們重新進入視野時,精確地還原出來。
持續生成新場景
Genie 2 能在過程中實時創造出符合邏輯的新場景內容,並且可以在長達一分鐘的時間內保持整個世界的一致性。
多樣化環境
Genie 2 能夠生成多種不同的觀察視角,比如第一人稱視角、等距視角(45 度俯視角)或第三人稱駕駛視角。
快速創建測試原型
有了 Genie 2,製作多樣化的交互場景就變得簡單了。
研究人員可以快速嘗試新環境,來訓練和測試具身 AI 智能體。
例如,下面就是研究人員向 Genie 2 輸入 Imagen 3 生成的不同圖像,來模擬操控紙飛機、飛龍、獵鷹或降落傘等不同的飛行方式。
在這個過程中,也同時測試了 Genie 處理不同控制對象動作時的表現。
憑藉強大的離散泛化能力,Genie 2 可以將概念設計圖和手繪草圖轉化為可實際交互的場景。
從而讓藝術家和設計師能夠快速驗證創意,提升場景設計的效率,並加快相關研究的進度。
以下是由概念設計師創作出的一些虛擬場景示例。
AI 智能體在世界模型中行動
藉助 Genie 2,研究人員能夠快速構建出豐富多樣的虛擬環境,並創造全新的評估任務,來測試 AI 智能體在從未接觸過的場景中的表現。
下面這個 demo,就是由谷歌 DeepMind 與遊戲開發者共同開發的 SIMA 智能體,它能夠在 Genie 2 僅通過一張圖片生成的全新環境中,準確理解並完成各種指令。
prompt:一張第三人稱開放世界探索遊戲的截圖。畫面中的玩家是一名在森林中探索的冒險者。左邊有一座紅門的房子,右邊有一座藍門的房子。鏡頭正對着玩家的身後。#寫實風格 #身臨其境
SIMA 智能體的目標是,能夠在多樣化的 3D 遊戲環境中,通過自然語言指令完成各種任務。
在這裏,團隊使用 Genie 2 生成了一個包含兩扇門(藍色和紅色)的 3D 環境,並向 SIMA 智能體提供了打開每扇門的指令。
過程中,SIMA 通過鍵盤和鼠標來控制遊戲角色,而 Genie 2 負責實時生成遊戲畫面。
打開藍色的門
打開紅色的門
不僅如此,我們還可以藉助 SIMA 來評估 Genie 2 的各項能力。
比如,通過讓 SIMA 在場景中四處查看並探索房屋背後的區域,測試 Genie 2 是否能夠生成一致性的環境。
轉身
去房子後面
儘管這項研究還處於起步階段,無論是 AI 智能體的表現,還是環境的生成都還有待提升。
但研究人員認為,Genie 2 是解決安全訓練具身智能體這一結構性問題的路徑,同時也能夠實現通向通用人工智能(AGI)所需的廣度和通用性。
prompt:一個電腦遊戲場景,展示了一座粗獷的石洞或礦洞內部。畫面採用第三人稱視角,鏡頭在主角上方俯視着。主角是一位手持長劍的騎士。騎士面前矗立着三座石砌的拱門,他可以選擇進入任一道門。透過第一扇門,可以看到隧道內生長着散發熒光的奇異綠色植物。第二扇門後是一條長廊,洞壁上佈滿了鉚接的鐵板,遠處隱約透出令人不安的光芒。第三扇門內則是一段粗糙的石階,蜿蜒通向未知的高處。
走上樓梯
去有植物的地方
去中間的門
擴散世界模型
Genie 2 是一種基於大規模視頻數據集訓練的自迴歸潛變量擴散模型。
其中,視頻的潛變量幀首先先會由自動編碼器進行處理,然後被傳遞給一個基於類似 LLM 中因果掩碼訓練的大規模 Transformer 動態模型。
在推理階段,Genie 2 可以以自迴歸的方式進行採樣,逐幀利用單個動作和先前的潛變量幀。期間,無分類器指導(classifier-free guidance)會被用於提高動作的可控性。
值得注意的是,上文中的演示均由未經蒸餾的「滿血版」基礎模型生成,從而充分地展示技術潛在的能力。
當然,也可以實時運行經過蒸餾的版本(distilled version),但輸出質量會相應降低。
花絮
除了這些酷炫的 demo 之外,團隊還在生成過程中發現了很多有意思的花絮:
在花園裏站着發呆,突然間,一個幽靈出現了
這位朋友更喜歡在雪場裏跑酷,而不是老老實實地用滑雪板滑雪
能力越大,責任越大
致謝
最後,谷歌 DeepMind 團隊放出了一個長長的致謝名單。
參考資料:https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/
本文來源:新智元,原文標題:《剛剛,DeepMind 最強「基礎世界模型」誕生!單圖生 1 分鐘遊戲世界,解鎖下一代智能體》

