商湯想要創造 “超級時刻”

華爾街見聞
2024.07.06 06:00
portai
我是 PortAI,我可以總結文章信息。

AI 競速。

作者 | 劉寶丹

編輯 | 周智宇

ChatGPT 的爆紅讓人們看到了 AI 大模型的巨大潛力,在經過一年多的技術追趕後,國內大模型公司紛紛押注應用端。

然而,要想做出一款真正有影響力的產品,並不是件容易的事情。

在 2024 世界人工智能大會上,商湯 CEO 徐立審慎地指出:“儘管熱潮洶湧,但我們距離那個真正震撼業界的 ‘超級時刻’ 尚有距離。” 他強調,AI 尚未全面滲透至各行各業的骨髓之中,也未能在社會上激起廣泛而深刻的變革漣漪。

正是基於這種清醒的認知,商湯把當前的重點放在了大模型本身的性能上。

7 月 5 日,商湯在 “大愛無疆·向新力” 人工智能論壇上發佈了 “日日新 5o”,這是國內首個所見即所得模型,其交互體驗對標 GPT-4o。

具體來看,“日日新 5o” 通過整合跨模態信息,基於聲音、文本、圖像和視頻等多種形式,帶來一種全新的 AI 交互模式,即實時的流式多模態交互。

對於為何命名為 5o,商湯研究院研發總監盧樂煒對華爾街見聞表示,這個版本引入了很多現在能媲美 GPT-4o 的最前沿能力,在版本命名上比較保守,V6 會有一個更大的計劃,帶來更全面、更基礎的大升級。

創新交互模式

在現場,商湯科技對 “日日新 5o” 的能力進行了演示。

剛開始,工作人員僅是和 “日日新 5o” 打個招呼,它就自動識別出工作人員脖子佩戴的胸卡帶子上的字眼,判斷出現場就是世界人工智能大會會場,並表示在這個地方可以 “好好學習”。

接下來,工作人員拿了一隻可愛小狗玩偶,“日日新 5o” 準確描述了小狗的外貌、表情以及重要穿戴——一個戴着印有商湯科技 logo 白帽子,很給主場人排面。

再上些難度,隨便翻開一本書的任何一頁,“日日新 5o” 都能自動介紹,不是簡單的 OCR 識別文字,而是識別圖文給出好理解的總結,這一切在瞬間即可完成,真正做到實時交互。

工作人員還現場發揮了 “畫功”,隨手畫了一隻簡筆畫小兔子,“日日新 5o” 直呼畫得可愛,而後工作人員又畫了一個微笑表情,它從這個平靜的表情中捕捉到了笑意,工作人員又改了一筆把嘴巴畫大增添了舌頭,“日日新 5o” 看到後立馬説到這表情開心多了。

“日日新 5o” 打造的是如同真人聊天一般的交流對話,據商湯介紹,這種交互模式特別適用於實時對話和語音識別等應用,能夠實現對標 GPT-4o 的交互體驗正是源於 “日日新 5.5” 基礎模型能力的全面提升。

接下來的計劃

今年 4 月,商湯科技發佈了 “日日新 5.0”,這是國內首個對標 GPT-4 Turbo 的國產大模型,引發資本市場的熱潮。

短短兩個多月時間,全新 “日日新 5.5” 體系迎來多項升級,綜合性能較 “日日新 5.0” 平均提升 30%,在數學推理、英文能力和指令跟隨等能力明顯增強,交互效果和多項核心指標實現對標 GPT-4o。

盧樂煒表示,5.5 的發佈從技術預研來説,不是最近幾個月的,它是商湯自上年末在研發原生多模態的一個方法論的集成。“這一塊恰好跟 GPT-4o 的 o 這個 Omni 的實際含義是一樣的。我們當時很早就預判了這個趨勢,有一個研發攻關的技術團隊在做這個事。”

“它能在訓練過程中涵蓋多個模態帶給它的知識,然後相互融合,這個對於算法的性能精度提升幫助非常大。” 盧樂煒進一步強調,這個原生多模態集成了音頻、視頻,還有最早的圖像,從輸入端 encoder 到輸出端 decoder 都是完全集成到一個模型裏。

此外,“日日新 5.5” 採用混合端雲協同專家架構,最大限度發揮雲邊端協同,降低推理成本,模型訓練基於超過 10TB tokens 高質量訓練數據,包括大量合成的思維鏈數據,提升推理思維能力。

對於接下來的版本計劃,盧樂煒表示,這一版本更新還是相當大的,當時也考慮按常規是一個 V6 的版本號,但我們同時在進行的 V6 版本會有一個更大的計劃,它能承載一個希望更全面的、更基礎的一個大的升級。

“我們先把他保守的宣傳做一個 5.5 版本的發佈,希望也可以讓大家期待一下,到時候 V6 將會帶來怎樣一個更全面的升級。”