剛剛,DeepMind 最強「基礎世界模型」誕生!單圖生 1 分鐘遊戲世界,解鎖下一代智能體

華爾街見聞
2024.12.04 19:56
portai
我是 PortAI,我可以總結文章信息。

谷歌 DeepMind 推出第二代基礎世界模型 Genie 2,能夠生成最長 1 分鐘的可玩遊戲世界。該模型支持從圖像生成動態環境,允許用户通過鍵盤和鼠標進行操作。研究者測試了智能體在生成的環境中遵循語言指令的能力,結果令人驚喜。Genie 2 為訓練和評估具身智能體提供了無限多樣的 3D 環境,標誌着 AI 研究的新進展。

就在剛剛,谷歌 DeepMind 的第二代大規模基礎世界模型 Genie 2 誕生了!

從此,AI 可以生成各種一致性的世界,最長可玩 1 分鐘。

谷歌研究人員表示,相信 Genie 2 可以解鎖具身智能體的下一波能力。

從第一人稱的真實世界場景,到第三人稱的駕駛環境,Genie 2 生成了一個 720p 的世界。

給定一幅圖像,它就能模擬出世界動態,創建一個可通過鍵盤和鼠標輸入的、可操作的一致環境。

具身智能體的潛力有多大?

在以下這個 Imagen 3 生成的世界中,研究者測試出最新的智能體是否可以遵循語言指令,走到紅門或藍門。

結果令人驚喜!

就這樣,現在我們擁有了一條通往無限環境的道路,來訓練和評估具身智能體了。

研究者創造了一個有 3 個拱門的世界後,Genie 2 再次模擬了這個世界,讓團隊解決了任務。

對此,網友們紛紛表示讚歎:」這項工作實在是太棒了!今後,我們終於可以將開放式智能體與開放世界模型結合起來。我們正在朝着近乎無限的訓練數據體系邁進。」

還有網友表示:「黑客帝國」的世界,要來了!

為未來的通用智能體,生成無限多樣的訓練環境

作為一種基礎世界生成模型,Genie 2 能生成無限多樣的、可操控且可玩的 3D 環境,用於訓練和評估具身智能體。

基於一張提示詞圖像,它就可被人類或 AI 智能體操作了!方式是使用鍵盤和鼠標輸入。

在 AI 研究中,遊戲一直扮演着至關重要的角色。因為具有以引人入勝的特性、獨特的挑戰組合以及可衡量的進展,遊戲成為了安全測試和提升 AI 能力的理想環境。

自 Google DeepMind 成立以來,遊戲一直都是研究的核心——從早期的 Atari 遊戲研究,到 AlphaGo 和 AlphaStar 等突破性成果,再到與遊戲開發者合作研究通用智能體。

然而,訓練更通用的具身智能體,卻因缺乏足夠豐富和多樣化的訓練環境而受到限制。

但現在,Genie 2 的誕生改變了一切。

從此,未來的智能體可以在無限的新世界場景中進行訓練和評估了。

交互式體驗原型設計的新型創意工作流程,也有了全新的可能性。

基礎世界模型的湧現能力

迄今為止,世界模型在很大程度上都受限於對狹窄領域的建模。

在 Genie 1 中,研究人員引入了一種生成多樣化二維世界的方法。

而到了 Genie 2 這一代,在通用性上實現了重大突破——它能生成豐富多樣的 3D 世界了。

Genie 2 是一種世界模型,這就意味着,它可以模擬虛擬世界,包括採取任何行動(如跳躍、游泳等)的後果。

基於大規模視頻數據集進行訓練後,它像其他生成式 AI 模型一樣,展現出了各種規模的湧現能力,例如物體交互、複雜的角色動畫、物理效果、建模、預測其他智能體行為的能力等等。

對於每個人類與 Genie 2 互動的 demo,模型都以由 Imagen 3 生成的單張圖片作為提示詞輸入,

這就意味着,任何人都可以用文字描述自己想要的世界,選擇自己喜歡的渲染效果,然後進入這個新創建的世界,並且與之互動(或者,也可以讓 AI 智能體在其中被訓練或評估)。

每一步,人或智能體都能通過鍵盤和鼠標提供動作,而 Genie 2 會模擬下一步的觀察結果。

在長達一分鐘的時間裏,Genie 2 可以生成一個一致的世界,持續時間直接長達 10-20 秒!

動作控制

Genie 2 能夠智能響應通過鍵盤按鍵採取的動作,識別角色並正確移動。

例如,模型必須計算出,箭頭鍵應該移動機器人,而不是移動樹木或雲朵。

一個在樹林中的可愛的人形機器人
一個在古埃及的人形機器人
在紫色的星球上,以機器人第一人稱視角觀察
在現代都市的公寓中,以機器人第一人稱視角觀察

生成反事實

Genie 2 能夠基於同一個開始畫面,創造出多個不同的發展。

這意味着我們可以為 AI 訓練提供各種「如果這樣做會怎樣」的場景。

在下面的這兩行 demo 中,每個視頻都會從完全相同的畫面開始,但人類玩家會選擇不同行動。

長時間記憶

Genie 2 能夠記住那些暫時離開畫面的場景,並在它們重新進入視野時,精確地還原出來。

持續生成新場景

Genie 2 能在過程中實時創造出符合邏輯的新場景內容,並且可以在長達一分鐘的時間內保持整個世界的一致性。

多樣化環境

Genie 2 能夠生成多種不同的觀察視角,比如第一人稱視角、等距視角(45 度俯視角)或第三人稱駕駛視角。

3D 結構
Genie 2 能夠創建複雜的 3D 視覺場景。
物體屬性與交互
Genie 2 能夠建模各種物體交互,例如氣球爆裂、開門和射擊炸藥桶。
角色動畫
Genie 2 能夠為不同類型的角色,製作各種動作的動畫。
NPC
Genie 2 能夠為其他智能體建模,甚至與它們進行復雜交互。
物理效果
Genie 2 能夠模擬出水面的動效。
煙霧
Genie 2 能夠模擬煙霧的效果。
重力
Genie 2 能夠模擬重力。
光照
Genie 2 能夠模擬點光源和方向光。
反射
Genie 2 能夠模擬反射、泛光和彩色光照。
基於真實圖像的模擬
Genie 2 還可以將真實世界的圖像作為提示詞輸入,並模擬出草葉在風中搖曳或河水流動等場景。

快速創建測試原型

有了 Genie 2,製作多樣化的交互場景就變得簡單了。

研究人員可以快速嘗試新環境,來訓練和測試具身 AI 智能體。

例如,下面就是研究人員向 Genie 2 輸入 Imagen 3 生成的不同圖像,來模擬操控紙飛機、飛龍、獵鷹或降落傘等不同的飛行方式。

在這個過程中,也同時測試了 Genie 處理不同控制對象動作時的表現。

憑藉強大的離散泛化能力,Genie 2 可以將概念設計圖和手繪草圖轉化為可實際交互的場景。

從而讓藝術家和設計師能夠快速驗證創意,提升場景設計的效率,並加快相關研究的進度。

以下是由概念設計師創作出的一些虛擬場景示例。

AI 智能體在世界模型中行動

藉助 Genie 2,研究人員能夠快速構建出豐富多樣的虛擬環境,並創造全新的評估任務,來測試 AI 智能體在從未接觸過的場景中的表現。

下面這個 demo,就是由谷歌 DeepMind 與遊戲開發者共同開發的 SIMA 智能體,它能夠在 Genie 2 僅通過一張圖片生成的全新環境中,準確理解並完成各種指令。

prompt:一張第三人稱開放世界探索遊戲的截圖。畫面中的玩家是一名在森林中探索的冒險者。左邊有一座紅門的房子,右邊有一座藍門的房子。鏡頭正對着玩家的身後。#寫實風格 #身臨其境

SIMA 智能體的目標是,能夠在多樣化的 3D 遊戲環境中,通過自然語言指令完成各種任務。

在這裏,團隊使用 Genie 2 生成了一個包含兩扇門(藍色和紅色)的 3D 環境,並向 SIMA 智能體提供了打開每扇門的指令。

過程中,SIMA 通過鍵盤和鼠標來控制遊戲角色,而 Genie 2 負責實時生成遊戲畫面。

打開藍色的門

打開紅色的門

不僅如此,我們還可以藉助 SIMA 來評估 Genie 2 的各項能力。

比如,通過讓 SIMA 在場景中四處查看並探索房屋背後的區域,測試 Genie 2 是否能夠生成一致性的環境。

轉身

去房子後面

儘管這項研究還處於起步階段,無論是 AI 智能體的表現,還是環境的生成都還有待提升。

但研究人員認為,Genie 2 是解決安全訓練具身智能體這一結構性問題的路徑,同時也能夠實現通向通用人工智能(AGI)所需的廣度和通用性。

prompt:一個電腦遊戲場景,展示了一座粗獷的石洞或礦洞內部。畫面採用第三人稱視角,鏡頭在主角上方俯視着。主角是一位手持長劍的騎士。騎士面前矗立着三座石砌的拱門,他可以選擇進入任一道門。透過第一扇門,可以看到隧道內生長着散發熒光的奇異綠色植物。第二扇門後是一條長廊,洞壁上佈滿了鉚接的鐵板,遠處隱約透出令人不安的光芒。第三扇門內則是一段粗糙的石階,蜿蜒通向未知的高處。

走上樓梯

去有植物的地方

去中間的門

擴散世界模型

Genie 2 是一種基於大規模視頻數據集訓練的自迴歸潛變量擴散模型。

其中,視頻的潛變量幀首先先會由自動編碼器進行處理,然後被傳遞給一個基於類似 LLM 中因果掩碼訓練的大規模 Transformer 動態模型。

在推理階段,Genie 2 可以以自迴歸的方式進行採樣,逐幀利用單個動作和先前的潛變量幀。期間,無分類器指導(classifier-free guidance)會被用於提高動作的可控性。

值得注意的是,上文中的演示均由未經蒸餾的「滿血版」基礎模型生成,從而充分地展示技術潛在的能力。

當然,也可以實時運行經過蒸餾的版本(distilled version),但輸出質量會相應降低。

花絮

除了這些酷炫的 demo 之外,團隊還在生成過程中發現了很多有意思的花絮:

在花園裏站着發呆,突然間,一個幽靈出現了

這位朋友更喜歡在雪場裏跑酷,而不是老老實實地用滑雪板滑雪

能力越大,責任越大

致謝

最後,谷歌 DeepMind 團隊放出了一個長長的致謝名單。

參考資料:https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

本文來源:新智元,原文標題:《剛剛,DeepMind 最強「基礎世界模型」誕生!單圖生 1 分鐘遊戲世界,解鎖下一代智能體》

風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。