Alter聊科技
2024.07.26 05:06

智譜 AI 再放 “大招”,30 秒將任意文字生成視頻

portai
我是 PortAI,我可以總結文章信息。

繼文本生成、圖像生成後,視頻生成也加入到了 “內卷” 行列。

7 月 26 日的智譜 Open Day 上,在大模型賽道上動作頻頻的智譜 AI,正式推出視頻生成模型 CogVideoX,並放出了兩個 “大招”:

一個是智譜清言打造的視頻創作智能體清影,可使用文本或圖片生成時長 6 秒、1440x960 清晰度的高精視頻。

另一個是智譜清言小程序上線的 “讓照片動起來”,可以直接在小程序中上傳照片,輸入提示詞生成動態視頻。

不同於一些小範圍開放或預約才能使用的產品, 清影智能體面向所有用户開放,輸入一段提示詞,選擇自己想要的風格,包括卡通 3D、黑白、油畫、電影感等等,配上清影自帶的音樂,就能生成充滿想象力的短視頻。企業和開發者也可以通過調用 API 的方式,體驗文生視頻和圖生視頻能力。

由此引出了這樣一個問題:目前視頻生成類產品仍處於 “可玩” 的階段,距離商用仍然有不小的鴻溝,智譜 AI 的進場將產生什麼樣的影響?

01 更快更可控的 “清影”

在 Sora 引爆視頻生成賽道後,行業內掀起了一場連鎖反應,先是 Runway、Pika 等產品在海外市場走紅,國內在 4 月份以後也陸續曝光了多個文生視頻類大模型,幾乎每個月都會有新產品上線。

市場層面越來越熱鬧,體驗上卻陷入了相似的困局,確切的説是兩大繞不過去共性問題:

一是推理速度慢,哪怕只是 4 秒的視頻,也需要 10 分鐘左右才能生成,而且視頻越長,生成的速度越慢;

二是可控性差,在限定的語句和限定的訓練樣本內,可以有不錯的效果,一旦 “越界” 就會出現 “羣魔亂舞” 的情況。

有人將其比作為遊戲中的 “抽卡”,多試幾次才會生成想要的效果。然而一個無法掩蓋的事實是,倘若文生視頻要嘗試 25 次才能生成一次可用的,每次生成的時間動輒 10 分鐘,意味着想要獲得一條几秒中的視頻,需要長達四個多小時的時間成本,所謂的 “生產力” 也就無從談起。

在智譜清言裏試用了 “清影” 的文生視頻和圖生視頻功能後,我們發現了兩個令人驚豔的體驗:生成一條 6 秒的視頻,只需要花費 30 秒左右,推理時間從分鐘級被壓縮到了秒級;採用 “鏡頭語言 + 建立場景 + 細節描述” 的提示詞公式,一般 “抽兩三次卡” 就能夠獲得讓人滿意的視頻內容。

以文生視頻的場景為例,給 “清影” 輸入 “寫實描繪,近距離,獵豹卧在地上,身體微微起伏” 的指令後,一分鐘內就生成了一段 “以假亂真” 的視頻:風吹動草地的背景,獵豹不斷晃動的耳朵,隨着呼吸起伏的身體,甚至每一根鬍鬚都栩栩如生……幾乎可以被誤認為是近距離拍攝的視頻。

為什麼智譜 AI 可以 “跳過” 行業內普遍存在的痛點?因為所有的技術問題,都可以通過技術上的創新解決。

隱藏在智譜清言視頻創作智能體 “清影” 背後的,是智譜大模型團隊自研打造的視頻生成大模型 CogVideoX,採用了和 Sora 一樣的 DiT 結構,可以將文本、時間和空間融合。

通過更好的優化技術,CogVideoX 的推理速度較前代模型提升了 6 倍;為了提升可控性,智譜 AI 自研了一個端到端視頻理解模型,為海量的視頻數據生成詳細的、貼合內容的描述,以增強模型的文本理解和指令遵循能力,使得生成的視頻更符合用户的輸入,並能夠理解超長複雜 prompt 指令。

如果説市面上的同類產品還在 “可用” 上下功夫,創新上 “全壘打” 的智譜 AI 已經進入了 “好用” 的階段。

直接的例子就是智譜清言同步提供的配樂功能,可以為生成的視頻配上音樂,用户需要做的僅僅是發佈。無論是沒有視頻製作基礎的小白用户,還是專業的內容創作者,都可以藉助 “清影” 讓想象力化為生產力。

02 Scaling Law 再次被驗證

每一次看似不尋常的背後,都有其必然性。在同類產品要麼不開放使用,要麼還處於阿爾法版本的階段,“清影” 之所以成為人人可用的 AI 視頻應用,離不開智譜 AI 在頻生成大模型上的多年深耕。

時間回到 2021 年初,距離 ChatGPT 的走紅還有近兩年時間,諸如 Transformer、GPT 等名詞只是在學術圈討論時,智譜 AI 就推出了文生圖模型 CogView,可以將中文文字生成圖像,在 MS COCO 的評估測試中超過 OpenAI 的 Dall·E,並在 2022 年推出了 CogView2,解決了生成速度慢、清晰度低等問題。

到了 2022 年,智譜 AI 在 CogView2 的基礎上研發了視頻生成模型 CogVideo,可以輸入文本生成逼真的視頻內容。

彼時外界還沉浸在對話式 AI 的場景中,視頻生成並不是焦點話題,但在前沿的技術圈裏,CogVideo 已經是炙手可熱的 “明星”。

比如 CogVideo 採用的多幀率分層訓練策略,提出了一種基於遞歸插值的方法,即逐步生成與每個子描述相對應的視頻片段,並將這些視頻片段逐層插值得到最終的視頻片段,賦予了 CogVideo 控制生成過程中變化強度的能力,有助於更好地對齊文本和視頻語義,實現了從文本到視頻的高效轉換。

Meta 推出的 Make-A-Video、谷歌推出的 Phenaki 和 MAGVIT、微軟的女媧 DragNUWA 以及英偉達 Video LDMs 等等,不少視頻生成模型都引用了 CogVideo 的策略,並在 GitHub 上引起了廣泛關注。

而在全新升級的 CogVideoX 上,諸如此類的創新還有很多。比如在內容連貫性方面,智譜 AI 自研了高效三維變分自編碼器結構(3D VAE),將原視頻空間壓縮至 2% 大小,配合 3D RoPE 位置編碼模塊,更有利於在時間維度上捕捉幀間關係,建立起視頻中的長程依賴。

也就是説,視頻創作智能體 “清影” 的出現絕非偶然和奇蹟,而是智譜 AI 日拱一卒式創新的必然結果。

大模型行業有一個著名的定律叫 Scaling Law,即在不受其他因素制約時,模型的性能和計算量、模型參數量、數據大小呈現冪律關係,增加計算量、模型參數量或數據大小都可能會提升模型的性能。

按照智譜 AI 官方給出的信息,CogVideoX 的訓練依託亦莊高性能算力集羣,而且合作伙伴華策影視參與了模型共建、另一家合作伙伴 bilibili 參與了清影的技術研發過程。沿循這樣的邏輯,“清影” 在生成速度、可控性上超預期的體驗,無疑再一次印證了 Scaling Law 定律的有效性。

甚至可以預見,在 Scaling Law 的作用下,後續版本的 CogVideoX,將擁有更高分辨率、更長時長的視頻生成能力。

03 “多模態是 AGI 的起點”

一個可能被習慣性忽略的信息在於,智譜 AI 並沒有將 “清影” 作為獨立的產品,而是以智譜清言的智能體上線。

箇中原因可以追溯到智譜 AI CEO 張鵬在 ChatGLM 大模型發佈會上的演講:“2024 年一定是 AGI 元年,而多模態是 AGI 的一個起點。如果想要走到 AGI 這條路上去,只停留在語言的層面不夠,要以高度抽象的認知能力為核心,把視覺、聽覺等系列模態的認知能力融合起來,才是真正的 AGI。”

5 月份的 ICLR 2024 上,智譜大模型團隊在主旨演講環節再次闡述了對 AGI 技術趨勢的判斷:“文本是構建大模型的關鍵基礎,下一步則應該把文本、圖像、視頻、音頻等多種模態混合在一起訓練,構建真正原生的多模態模型。”

過去一年多時間裏,大模型的熱度一浪高過一浪,卻未能擺脱 “缸中大腦” 的侷限,應用場景十分有限。而大模型想要脱虛向實,想要走進實際的生活和工作中創造價值,必須要長出手腳的執行能力,比如在語言能力外延伸出聽覺和視覺的能力,並通過這些能力和物理世界進行無縫連接。

再來審視視頻生成大模型 CogVideoX 和視頻創作智能體 “清影”,無疑可以得出一些不一樣的答案。

CogVideoX 的文生視頻、圖生視頻能力,可以看作是對認知能力的拆解,先實現單項能力的突破;以視頻創作智能體形態出現的 “清影”,可以看作是對不同模型能力的收攏,在原生多模態大模型還不太成熟的情況下,用户可以通過多個智能體的組合,高效且精準地解決現實問題。

可以佐證的是,在智譜 AI 的大模型矩陣裏,已經涵蓋具備視覺和智能體能力的 GLM-4/4V、推理極速且高性價比的 GLM-4-Air、基於文本描述創作圖像的 CogView-3、超擬人角色定製模型 CharacterGLM、擅長中文的向量模型 Embedding-2、代碼模型 CodeGeeX、開源模型 GLM-4-9B 以及視頻生成大模型 CogVideoX,客户可以根據不同的需求調用不同大模型,找到最優解。

而在 To C 應用方面,目前智譜清言上已經有 30 多萬個智能體,包括思維導圖、文檔助手、日程安排等出色的生產力工具。同時智譜 AI 還推出了由數十萬個 AI 體組成的多智能體協作系統——清言 Flow,不僅限於單一智能體的交互,涉及多輪、多態、多元的對話交互模式,人們僅需通過簡潔的自然語言指令,就能處理高度複雜的任務。

做一個總結的話:現階段距離真正意義上的 AGI 還有不小的距離,但智譜 AI 正在用 “單項突破,能力聚合” 的方式,提前讓 AGI 照進現實,讓強大的大模型能力真正用來幫助人們的工作、學習和生活。

04 寫在最後

需要正視的是,目前視頻生成大模型對物理世界規律的理解、高分辨率、鏡頭動作連貫性以及時長等,仍存在非常大的提升空間。

在通往 AGI 的路上,智譜 AI 等大模型廠商不應該是孤獨的行路者。作為普通用户的我們,也可以是其中的一員,至少可以在智譜清言上用自己的 “腦洞” 生成有趣的視頻,讓更多人看到大模型的價值,利用 AI 提升創作效率的同時,加速多模態大模型不斷走向成熟。

本文版權歸屬原作者/機構所有。

當前內容僅代表作者觀點,與本平台立場無關。內容僅供投資者參考,亦不構成任何投資建議。如對本平台提供的內容服務有任何疑問或建議,請聯絡我們。