谷歌版 Sora 發佈:最大對手竟是「可靈」,OpenAI 表現最差

華爾街見聞
2024.12.17 00:01
portai
我是 PortAI,我可以總結文章信息。

谷歌發佈了最新的視頻生成模型 Veo 2 和圖像生成模型 Imagen 3,並推出了圖像生成實驗工具 Whisk。測試顯示,OpenAI 的 Sora 表現最差,而可靈成為視頻生成的頂流。Veo 2 以高達 4K 的分辨率生成高質量視頻,具備對真實世界物理規律的深入理解,能夠忠實遵循複雜指令,增強真實感和保真度,表現優於其他 AI 視頻模型。

谷歌剛剛發佈了其最新的視頻生成模型 Veo 2 和圖像生成模型 Imagen 3,並推出了一項全新的圖像生成實驗工具 Whisk,有趣的是根據谷歌的測試,OpenAI Sora 成為表現最差的主流視頻生成模型,可靈成為視頻生成頂流之一,海螺表現也不錯。

Veo 2:號稱最先進的視頻生成模型

Veo 2 能夠生成各種主題和風格的高質量視頻。在與頂尖模型的對比測試中,由人類評估者進行評判,Veo 2 取得了最先進的成果。它對真實世界物理規律以及人類動作和表情的細微之處有了更深入的理解,從而提高了視頻的整體細節和真實感。

Veo 2 理解電影語言的獨特之處。用户可以指定類型、鏡頭和電影特效,Veo 2 能夠以高達 4K 的分辨率和數分鐘的時長來呈現效果。無論是低角度的跟蹤鏡頭,還是科學家使用顯微鏡的特寫鏡頭,Veo 2 都能輕鬆實現。通過提示詞中的 “18mm 鏡頭” 或 “淺景深”,Veo 2 可以分別生成廣角鏡頭或背景模糊、突出主體的效果。

Veo 2 的核心優勢包括:

高質量和控制力: 能夠忠實地遵循簡單和複雜的指令,並逼真地模擬真實世界的物理規律以及各種視覺風格。

增強的真實感和保真度: 在細節、真實度和偽影減少方面顯著優於其他人工智能視頻模型。

先進的運動能力: 由於對物理規律的理解以及執行詳細指令的能力,Veo 能夠準確地呈現運動。

更強大的相機控制選項: 準確地解讀指令,以創建各種鏡頭風格、角度、運動以及它們的組合。

Veo 2 在 Meta 發佈的 MovieGenBench 基準數據集上,對 1003 個提示詞及其對應的視頻進行了人類評估。結果顯示,Veo 2 在整體偏好和準確遵循提示詞的能力方面表現最佳,對比模型為 Sora,Meta 的 Movie Gen,可靈,海螺。

從谷歌這個測試中我們發現,OpenAI 的 Sora 是幾款主流的視頻生成模型中相對錶現最差的,可靈是谷歌最大的競爭對手,在總體偏好和指令遵循偏好兩個指標上,如果把平手和偏好指標數據加起來,可靈是幾款視頻模型中唯一相對 Veo 超過 50% 的偏好選擇的模型,哈哈,可靈獲得谷歌的認證。

與傳統視頻模型經常 “虛構” 多餘細節(如多餘的手指或意外的物體)不同,Veo 2 產生這些問題的頻率較低,使其輸出更逼真。

谷歌也改進了其 Imagen 3 圖像生成模型,現在可以生成更明亮、構圖更好的圖像。它能夠以更高的精度渲染更多樣化的藝術風格,從照片寫實主義到印象主義,從抽象到動漫。升級後的 Imagen 3 模型能夠更忠實地遵循提示詞,並呈現更豐富的細節和紋理。

提示:背景有霓虹綠色燈光、淺景深的亞洲女性肖像

提示:一張特寫的微距攝影素材照片,畫面中一顆草莓被精細地雕刻成蜂鳥的形狀,正處於飛翔中,翅膀模糊成動態效果,彷彿正在吸食一朵色彩鮮豔的管狀花朵的花蜜。背景是鬱鬱葱葱、色彩豐富的花園,柔和的虛化效果(散景)營造出夢幻般的氛圍。圖像極其精細,採用淺景深確保草莓蜂鳥的鋭利對焦,而背景則柔和淡出。高分辨率、專業攝影師風格,柔和的光線使場景細節表現得淋漓盡致,專業的色彩分級進一步增強了鮮豔的色彩,使畫面呈現出卓越的清晰度。景深使蜂鳥與花朵在虛化背景下格外突出

提示:以高預算動畫電影風格呈現,畫面充滿生動、繪畫般的質感,展現出廣闊的星際景觀,紫色、藍色與金色的發光星雲交織輝映。主角是一名身披星辰圖案飄逸斗篷的小女孩,佇立在一座晶瑩剔透的懸崖邊緣。懸崖下,熔化的星塵之河在銀河中蜿蜒流淌,金色光芒動態閃爍。背景中,高聳的星座以神話生物的形態懸浮,輪廓由發光的點狀線條勾勒而成。流星劃破廣袤的天空,為畫面增添了動感與璀璨的光輝。鏡頭角度略微升高,既捕捉到了浩瀚銀河的壯麗,也展現出主角旅程的孤獨與神秘感

Imagen 3 可以生成各種格式和風格的高質量圖像,從逼真的風景到質感豐富的油畫或奇思妙想的粘土動畫場景

提示:雄獅在夢幻般的叢林中傲然咆哮的詳細插圖,紫色白色線條藝術背景,淺紫色紙張紋理上的剪貼畫

提示:黏土動畫場景。一個老年婦女的中廣角鏡頭。她穿着飄逸的衣服。她正站在一個鬱鬱葱葱的花園裏,用一個橙色的澆水壺給植物澆水

在與頂尖圖像生成模型的並排比較中,由人類評估者進行評判,Imagen 3 取得了最先進的成果

Imagen 3 能理解以自然、日常語言編寫的提示,因此無需複雜的提示工程就能輕鬆獲得想要的輸出結果

提示:一張摺紙鳥在城市景觀中翱翔的特寫照片,鳥兒與其他不同顏色和圖案的鳥兒成羣結隊,在下方的建築物上投下錯綜複雜的陰影

目前,最新的 Imagen 3 模型將在 Google Labs 的圖像生成工具 ImageFX 中全球推出,覆蓋 100 多個國家。用户可以訪問 ImageFX 開始體驗。

Whisk:用圖像激發創意的全新工具

Whisk 是谷歌實驗室推出的最新實驗項目,允許用户輸入或創建圖像,以表達他們心目中的主題、場景和風格。然後,用户可以將它們組合在一起,並重新混合,創造出獨特的作品,例如數字毛絨玩具或琺琅別針。

Whisk 結合了最新的 Imagen 3 模型和 Gemini 的視覺理解和描述能力。Gemini 模型會自動為用户的圖像編寫詳細的描述,然後將這些描述提供給 Imagen 3。這個過程讓用户可以輕鬆地以有趣的新方式重新混合主題、場景和風格。

谷歌是真的 “殺瘋了”,一雪前恥。

文章來源:AI 寒武紀,原文標題:《突發!谷歌版 Sora 發佈:最大對手竟是「可靈」,OpenAI 表現最差》

風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。