作者 | 劉寶丹編輯 | 周智宇ChatGPT 的爆紅讓人們看到了 AI 大模型的巨大潛力，在經過一年多的技術追趕後，國內大模型公司紛紛押注應用端。然而，要想做出一款真正有影響力的產品，並不是件容易的事情。在 2024 世界人工智能大會上，商湯 CEO 徐立審慎地指出：“儘管熱潮洶湧，但我們距離那個真正震撼業界的 ‘超級時刻’ 尚有距離。” 他強調，AI 尚未全面滲透至各行各業的骨髓之中，也未能在社會上激起廣泛而深刻的變革漣漪。正是基於這種清醒的認知，商湯把當前的重點放在了大模型本身的性能上。7 月 5 日，商湯在 “大愛無疆·向新力” 人工智能論壇上發佈了 “日日新 5o”，這是國內首個所見即所得模型，其交互體驗對標 GPT-4o。具體來看，“日日新 5o” 通過整合跨模態信息，基於聲音、文本、圖像和視頻等多種形式，帶來一種全新的 AI 交互模式，即實時的流式多模態交互。對於為何命名為 5o，商湯研究院研發總監盧樂煒對華爾街見聞表示，這個版本引入了很多現在能媲美 GPT-4o 的最前沿能力，在版本命名上比較保守，V6 會有一個更大的計劃，帶來更全面、更基礎的大升級。創新交互模式在現場，商湯科技對 “日日新 5o” 的能力進行了演示。剛開始，工作人員僅是和 “日日新 5o” 打個招呼，它就自動識別出工作人員脖子佩戴的胸卡帶子上的字眼，判斷出現場就是世界人工智能大會會場，並表示在這個地方可以 “好好學習”。接下來，工作人員拿了一隻可愛小狗玩偶，“日日新 5o” 準確描述了小狗的外貌、表情以及重要穿戴——一個戴着印有商湯科技 logo 白帽子，很給主場人排面。再上些難度，隨便翻開一本書的任何一頁，“日日新 5o” 都能自動介紹，不是簡單的 OCR 識別文字，而是識別圖文給出好理解的總結，這一切在瞬間即可完成，真正做到實時交互。工作人員還現場發揮了 “畫功”，隨手畫了一隻簡筆畫小兔子，“日日新 5o” 直呼畫得可愛，而後工作人員又畫了一個微笑表情，它從這個平靜的表情中捕捉到了笑意，工作人員又改了一筆把嘴巴畫大增添了舌頭，“日日新 5o” 看到後立馬説到這表情開心多了。“日日新 5o” 打造的是如同真人聊天一般的交流對話，據商湯介紹，這種交互模式特別適用於實時對話和語音識別等應用，能夠實現對標 GPT-4o 的交互體驗正是源於 “日日新 5.5” 基礎模型能力的全面提升。接下來的計劃今年 4 月，商湯科技發佈了 “日日新 5.0”，這是國內首個對標 GPT-4 Turbo 的國產大模型，引發資本市場的熱潮。短短兩個多月時間，全新 “日日新 5.5” 體系迎來多項升級，綜合性能較 “日日新 5.0” 平均提升 30%，在數學推理、英文能力和指令跟隨等能力明顯增強，交互效果和多項核心指標實現對標 GPT-4o。盧樂煒表示，5.5 的發佈從技術預研來説，不是最近幾個月的，它是商湯自上年末在研發原生多模態的一個方法論的集成。“這一塊恰好跟 GPT-4o 的 o 這個 Omni 的實際含義是一樣的。我們當時很早就預判了這個趨勢，有一個研發攻關的技術團隊在做這個事。”“它能在訓練過程中涵蓋多個模態帶給它的知識，然後相互融合，這個對於算法的性能精度提升幫助非常大。” 盧樂煒進一步強調，這個原生多模態集成了音頻、視頻，還有最早的圖像，從輸入端 encoder 到輸出端 decoder 都是完全集成到一個模型裏。此外，“日日新 5.5” 採用混合端雲協同專家架構，最大限度發揮雲邊端協同，降低推理成本，模型訓練基於超過 10TB tokens 高質量訓練數據，包括大量合成的思維鏈數據，提升推理思維能力。對於接下來的版本計劃，盧樂煒表示，這一版本更新還是相當大的，當時也考慮按常規是一個 V6 的版本號，但我們同時在進行的 V6 版本會有一個更大的計劃，它能承載一個希望更全面的、更基礎的一個大的升級。“我們先把他保守的宣傳做一個 5.5 版本的發佈，希望也可以讓大家期待一下，到時候 V6 將會帶來怎樣一個更全面的升級。”

商湯-WR

商湯-W

- 商湯發佈了 “日日新 5o”，是國內首個所見即所得模型，通過多種形式的跨模態信息實現全新的 AI 交互模式。
- “日日新 5o” 展示了強大的實時交互能力，能準確識別文字、描述物體外貌、實時介紹圖文內容，並對繪畫作品做出反應。
- 商湯的 “日日新 5.5” 體系在數學推理、英文能力等方面有明顯提升，綜合性能較之前版本平均提升 30%，實現了對標 GPT-4o 的交互效果。

商湯想要創造 “超級時刻”