--- title: "一錘降維!解密 OpenAI 超級視頻模型 Sora 技術報告,虛擬世界湧現了" type: "News" locale: "zh-HK" url: "https://longbridge.com/zh-HK/news/108073953.md" description: "昨天,OpenAI 發佈了 Sora 技術報告,展示了其超級視頻模型的里程碑進展。與其他主流工具相比,Sora 在生成視頻方面表現出色,可以保持動作和畫面一致性長達 17 秒。Sora 使用了視覺 patch 作為高度可擴展的表徵形式,成功地將視覺數據轉化為生成模型。這一革命性意義的進展讓業內人士驚歎。" datetime: "2024-02-17T01:17:01.000Z" locales: - [zh-CN](https://longbridge.com/zh-CN/news/108073953.md) - [en](https://longbridge.com/en/news/108073953.md) - [zh-HK](https://longbridge.com/zh-HK/news/108073953.md) --- # 一錘降維!解密 OpenAI 超級視頻模型 Sora 技術報告,虛擬世界湧現了 ##### 昨天白天,「現實不存在了」開始全網刷屏。 「我們這麼快就步入下一個時代了?Sora 簡直太炸裂了」。 「這就是電影製作的未來」! 谷歌的 Gemini Pro 1.5 還沒出幾個小時的風頭,天一亮,全世界的聚光燈就集中在了 OpenAI 的 Sora 身上。 Sora 一出,眾視頻模型臣服。 就在幾小時後,OpenAI Sora 的技術報告也發佈了! 其中,「里程碑」也成為報告中的關鍵詞。 報告地址:https://openai.com/research/video-generation-models-as-world-simulators 技術報告主要介紹了兩個方面: (1)如何將不同類型的視覺數據轉化為統一的格式,以便於對生成模型進行大規模訓練的方法; (2)對 Sora 的能力和侷限性的定性評價。 不過遺憾的是,報告不包括模型和實現細節。嗯,OpenAI 還是那個「OpenAI」。 就連馬斯克都被 Sora 生成效果震撼到,並表示「gg 人類」。 ## 打造虛擬世界模擬器 此前,OpenAI 的研究者一直在探索的一個難題就是,究竟怎樣在視頻數據上,應用大規模訓練的生成模型? 為此,研究者同時對對持續時間、分辨率和寬高比各不相同的視頻和圖片進行了訓練,而這一過程正是基於文本條件的擴散模型。 他們採用了 Transformer 架構,這種架構能夠處理視頻和圖片中時空片段的潛代碼。 隨之誕生的最強大模型 Sora,也就具備了生成一分鐘高質量視頻的能力。 OpenAI 研究者發現了令人驚喜的一點:擴展視頻生成模型的規模,是構建模擬物理世界通用模擬器的非常有希望的方向。 也就是説,順着這個方向發展,或許 LLM 真的能夠成為世界模型! Sora 的獨到之處在於哪裏? 要知道,以前的許多研究,都是通過各種技術對視頻數據進行生成模型建模,比如循環網絡、生成對抗網絡、自迴歸 Transformer 和擴散模型等方法。 它們往往只關注於特定類型的視覺數據、較短的視頻或者固定尺寸的視頻。 而 Sora 與它們不同,它是一種通用的視覺數據模型,能夠生成各種持續時間、寬高比和分辨率的視頻和圖片,甚至長達一分鐘的高清視頻。 有網友表示,「Sora 雖然有一些不完美之處(可以檢測出來),例如從物理效果可以看出它是人工合成的。但是,它將會革命性地改變許多行業。 想象一下可以生成動態的、個性化的廣告視頻進行精準定位,這將是一個萬億美元的產業」! 為了驗證 SORA 的效果,業界大佬 Gabor Cselle 把它和 Pika、RunwayML 和 Stable Video 進行了對比。 首先,他採用了與 OpenAI 示例中相同的 Prompt。 結果顯示,其他主流工具生成的視頻都大約只有 5 秒鐘,而 SORA 可以在一段長達 17 秒視頻場景中,保持動作和畫面一致性。 隨後,他將 SORA 的起始畫面用作參照,努力通過調整命令提示和控制相機動作,嘗試使其他模型產出與 SORA 類似的效果。 相比之下,SORA 在處理較長視頻場景方面的表現顯著更出色。 看到如此震撼的效果,也難怪業內人士都在感嘆,SORA 在 AI 視頻製作領域確實具有革命性意義。 ## 將視覺數據轉化為 patch LLM 之所以會成功,就是因為它們在互聯網規模的數據上進行了訓練,獲得了廣泛能力。 它成功的一大關鍵,就是使用了 token,這樣,文本的多種形態——代碼、數學公式以及各種自然語言,就優雅地統一了起來。 OpenAI 的研究者,正是從中找到了靈感。 該如何讓視覺數據的生成模型繼承 token 的這種優勢? 注意,不同於 LLM 使用的文本 token,Sora 使用的是視覺 patch。 此前已有研究表明,patch 對視覺數據建模非常有效。 OpenAI 研究者驚喜地發現,patch 這種高度可擴展的有效表徵形式,正適用於訓練能處理多種類型視頻和圖片的生成模型。 從宏觀角度來看,研究者首先將視頻壓縮到一個低維潛空間中,隨後把這種表徵分解為時空 patch,這樣就實現了從視頻到 patch 的轉換。 ## 視頻壓縮網絡 研究者開發了一個網絡,來減少視覺數據的維度。 這個網絡可以接受原始視頻作為輸入,並輸出一個在時間上和空間上都進行了壓縮的潛表徵。 Sora 在這個壓縮後的潛空間中進行訓練,之後用於生成視頻。 另外,研究者還設計了一個對應的解碼器模型,用於將生成的潛數據轉換回像素空間。 ## 潛空間 patch 對於一個壓縮後的輸入視頻,研究者提取看一系列空間 patch,作為 Transformer 的 token 使用。 這個方案同樣適用於圖像,因為圖像可以被視為只有一幀的視頻。 基於 patch 的表徵方法,研究者使得 Sora 能夠處理不同分辨率、持續時間和縱橫比的視頻和圖像。 在推理時,可以通過在一個合適大小的網格中適當排列隨機初始化的 patch,從而控制生成視頻的大小。 ## 擴展 Transformer 因此,視頻模型 Sora 是一個擴散模型;它能夠接受帶有噪聲的 patch(和條件信息,如文本提示)作為輸入,隨後被訓練,來預測原始的「乾淨」patch。 重要的是,Sora 是基於 Transformer 的擴散模型。在以往,Transformer 在語言模型、計算機視覺和圖像生成等多個領域,都表現出卓越的擴展能力。 令人驚喜的是,在這項工作中,研究者發現作為視頻模型的擴散 Transformer,也能有效地擴展。 下圖展示了訓練過程中使用固定種子和輸入的視頻樣本比較。 隨着訓練計算資源的增加,樣本質量顯著提升。 ## 視頻的多樣化表現 傳統上,圖像和視頻的生成技術往往會將視頻統一調整到一個標準尺寸,比如 4 秒鐘、分辨率 256x256 的視頻。 然而,OpenAI 研究者發現,直接在視頻的原始尺寸上進行訓練,能帶來諸多好處。 **靈活的視頻製作** Sora 能夠製作各種尺寸的視頻,從寬屏的 1920x1080 到豎屏的 1080x1920,應有盡有。 這也就意味着,Sora 能夠為各種設備製作適配屏幕比例的內容! 它還可以先以較低分辨率快速製作出視頻原型,再用相同的模型製作出全分辨率的視頻。 **更優的畫面表現** 實驗發現,直接在視頻原始比例上訓練,能夠顯著提升視頻的畫面表現和構圖效果。 因此,研究者將 Sora 與另一個版本的模型進行了比較,後者會將所有訓練視頻裁剪為正方形,這是生成模型訓練中的常見做法。 與之相比,Sora 生成的視頻(右側)在畫面構成上則有了明顯的改進。 ## 深入的語言理解 訓練文本到視頻的生成系統,需要大量配有文本説明的視頻。 研究者採用了 DALL·E 3 中的重新標註技術,應用在了視頻上。 首先,研究者訓練了一個能生成詳細描述的標註模型,然後用它為訓練集中的所有視頻,生成文本説明。 他們發現,使用詳細的視頻説明進行訓練,不僅能提高文本的準確性,還能提升視頻的整體質量。 類似於 DALL·E 3,研究者也使用了 GPT,把用户的簡短提示轉化為詳細的説明,然後這些説明會被輸入到視頻模型中。 這樣,Sora 就能根據用户的具體要求,生成高質量、準確無誤的視頻。 ## 圖像和視頻的多樣化提示 雖然展示的案例,都是 Sora 將文本轉換為視頻的 demo,但其實,Sora 的能力不止於此。 它還可以接受圖像或視頻等其他形式的輸入。 這就讓 Sora 能夠完成一系列圖像和視頻編輯任務,比如製作無縫循環視頻、給靜態圖片添加動態、在時間線上擴展視頻的長度等等。 **為 DALL·E 圖像賦予生命** Sora 能夠接受一張圖像和文本提示,然後基於這些輸入生成視頻。 下面即是 Sora 基於 DALL·E 2 和 DALL·E 3 圖像生成的視頻。 > 一隻戴貝雷帽和黑高領衫的柴犬 > 一家五口怪物的插畫,採用了簡潔明快的扁平設計風格。其中包括一隻毛茸茸的棕色怪物,一隻光滑的黑色怪物長着天線,還有一隻綠色的帶斑點怪物和一隻小巧的帶波點怪物,它們在一個歡快的場景中相互玩耍。 > 一張逼真的雲朵照片,上面寫着「SORA」。 > 在一個典雅古老的大廳內,一道巨浪滔天,正要破浪而下。兩位衝浪者把握時機,巧妙地滑行在浪尖上。 **視頻時間線的靈活擴展** Sora 不僅能生成視頻,還能將視頻沿時間線向前或向後擴展。 可以看到,demo 中的視頻都是從同一個視頻片段開始,向時間線的過去延伸。儘管開頭各不相同,但它們最終都匯聚於同一個結尾。 而通過這種方法,我們就能將視頻向兩個方向延伸,創造出一個無縫的循環視頻。 ## 圖像的生成能力 同樣,Sora 也擁有生成圖像的能力。 為此,研究者將高斯噪聲 patch 排列在空間網格中,時間範圍為一幀。 該模型可生成不同大小的圖像,分辨率最高可達 2048x2048 像素。 > 左:一位女士在秋季的特寫照片,細節豐富,背景模糊。 > > 右:一個生機勃勃的珊瑚礁,居住着五顏六色的魚類和海洋生物。 > 左:一幅數字繪畫,描繪了一隻幼年老虎在蘋果樹下,採用了精美的啞光畫風。 > > 右:一個被雪覆蓋的山村,温馨的小屋和壯麗的北極光相映成趣,畫面細膩逼真,採用了 50mm f/1.2 鏡頭拍攝。 **視頻風格和環境的變換** 利用擴散模型,就能通過文本提示來編輯圖像和視頻。 在這裏,研究者將一種名為 SDEdit 的技術應用於 Sora,使其能夠不需要任何先驗樣本,即可改變視頻的風格和環境。 **視頻之間的無縫連接** 另外,還可以利用 Sora 在兩個不同的視頻之間創建平滑的過渡效果,即使這兩個視頻的主題和場景完全不同。 在下面的 demo 中,中間的視頻就實現了從左側到右側視頻的平滑過渡。 一個是城堡,一個是雪中小屋,非常自然地融進一個畫面中。 **湧現的模擬能力** 隨着大規模訓練的深入,可以發現視頻模型展現出了許多令人興奮的新能力。 Sora 利用這些能力,能夠在不需要專門針對 3D 空間、物體等設置特定規則的情況下,就模擬出人類、動物以及自然環境的某些特徵。 這些能力的出現,完全得益於模型規模的擴大。 **3D 空間的真實感** Sora 能創造出帶有動態視角變化的視頻,讓人物和場景元素在三維空間中的移動,看起來十分自然。 如下,一對情侶漫步在雪天中的東京,視頻的生成和真實的運鏡效果大差不差了。 再比如,Sora 擁有更加遼闊的視野,生成山水風景與人徒步爬山的視頻,有種無人機拍攝出的鉅製趕腳。 **視頻的一致性和物體的持續存在** 在生成長視頻時,保持場景和物體隨時間的連續性一直是個挑戰。 Sora 能夠較好地處理這一問題,即便在物體被遮擋或離開畫面時,也能保持其存在感。 下面例子中,窗台前的花斑狗,即便中途有多個路人經過,它的樣子依舊保持一致。 例如,它可以在一個視頻中多次展示同一個角色,而且角色的外觀在整個視頻中保持一致。 賽博風格的機器人,從前到後旋轉一圈,都沒有跳幀。 **與世界的互動** 甚至,Sora 能模擬出影響世界狀態的簡單行為。 比如,畫家畫的櫻花樹,水彩紙上留下了持久的筆觸。 又或是,人吃漢堡時留下的咬痕清晰可見,Sora 的生成符合物理世界的規則。 **數字世界的模擬** Sora 不僅能模擬現實世界,還能夠模擬數字世界,比如視頻遊戲。 以「Minecraft」為例,Sora 能夠在控制玩家角色的同時,以高度逼真的方式渲染遊戲世界和動態變化。 而且,只需通過簡單的提示,如提及「Minecraft」,Sora 就能展現這些能力。 這些新能力顯示出,持續擴大視頻模型規模是一個極有希望的方向,讓模型向着精準模擬物理世界和數字世界、以及其中的生物和物體的高級模擬器發展。 ## 侷限性 當然,作為一個模擬器,Sora 目前還存在不少的侷限。 比如,它雖然能模擬一些基礎物理互動,比如玻璃的碎裂,但還不夠精確。 模擬吃食物的過程,也並不總是能準確反映物體狀態的改變。 在網站首頁上,OpenAI 詳細列出了模型的常見問題,比如在長視頻中出現的邏輯不連貫,或者物體會無緣無故地出現。 最後,OpenAI 表示,Sora 目前所展現出的能力,證明了不但提升視頻模式的規模是一個令人振奮的方向。 沿這個方向走下去,或許有一天,世界模型就會應運而生。 ## 網友:未來遊戲動嘴做 OpenAI 給出眾多的官方演示,看得出 Sora 似乎可以為更逼真的遊戲生成鋪路——僅憑文字描述就能生成程序遊戲。 這既令人興奮,又令人恐懼。 FutureHouseSF 的聯合創始人猜測,「或許 Sora 可以模擬我的世界。也許下一代遊戲機將是「Sora box」,遊戲將以 2-3 段文字的形式發佈」。 OpenAI 技術人員 Evan Morikawa 稱,「在 OpenAI 發佈的 Sora 視頻中,如下的視頻讓我大開眼界。通過經典渲染器渲染這個場景是非常困難的。Sora 模擬物理的方式和我們不同。它肯定仍然會出錯,但是我之前沒有預測到它能做得這麼逼真」。 有網友稱,「人們沒有把『每個人都會成為電影製作人』這句話當回事」。 我在 15 分鐘內製作了這部 20 年代的預告片,使用了 OpenAI Sora 的片段,David Attenborough 在 Eleven Labs 上的配音,並在 iMovie 上從 YouTube 上採樣了一些自然音樂。 還有人稱,「5 年後,你將能夠生成完全沉浸式的世界,並實時體驗它們,「全息甲板」即將變成現實」! 有人甚至表示,自己完全被 Sora 的 AI 視頻生成的出色效果驚呆了。 「它讓現有的視頻模型看起來像是愚蠢的玩具。每個人都將成為一名電影製作人」。 「新一代電影製作人即將與 OpenAI 的 Sora 一起湧現。再過 10 年,這將是一場有趣的比賽」! 「OpenAI 的 Sora 暫不會取代好萊塢。它將為好萊塢以及個人電影製作者和內容創作者,帶來巨大的推動力。 想象一下,只需 3 人團隊,就能在一週內,完成一部 120 分鐘的 A 級故事片的初稿創作和觀眾測試。這就是我們的目標」。 參考資料: https://openai.com/research/video-generation-models-as-world-simulators?ref=upstract.com 文章來源:新智元,原文標題:《一錘降維!解密 OpenAI 超級視頻模型 Sora 技術報告,虛擬世界湧現了》。 風險提示及免責條款 市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。 ### 相關股票 - [OpenAI.NA](https://longbridge.com/zh-HK/quote/OpenAI.NA.md) ## 相關資訊與研究 - [防提示注入攻擊!ChatGPT 加入鎖定模式保護敏感資料](https://longbridge.com/zh-HK/news/288999973.md) - [OpenAI 傳推 ChatGPT 重大改版 搶攻企業市場](https://longbridge.com/zh-HK/news/288961589.md) - [雷科半導體設備持續出貨 今年營收看好雙位數成長](https://longbridge.com/zh-HK/news/290322153.md) - [預期第三季財報將優於預期,外資調升美光目標價達 1,300 美元](https://longbridge.com/zh-HK/news/290322170.md) - [OpenAI 晶片「002 號員工」加入 Anthropic 稱被價值觀和抱負打動](https://longbridge.com/zh-HK/news/288953868.md)