
別急着給中國版 ChatGPT 唱讚歌:“追風者” 無緣 “星辰大海”

文心一言發佈十餘天后,爭論仍未有止歇的跡象。
有人給出了 “拉垮” 的評價,相比於多輪迭代的 ChatGPT,文心一言在邏輯推理、多輪對話等方面的表現不盡如人意;也有人認為給文心一言值得肯定,原因是填補了中文互聯網的空白,以及百度直面競爭的勇氣。
可能最終會像李彥宏在發佈會上所説的:當前文心一言的內測體驗並不能叫作 “完美”,發佈是因為有市場需求,“文心一言將建立起真實用户反饋、開發者調用和模型迭代之間的飛輪,效果會迅速提升,給你 ‘士別三日,當刮目相看’ 的驚喜。”
這裏並非想對比文心一言與 ChatGPT 的差距,而是想要討論這樣一個話題:那些以 “中國版 ChatGPT” 自居的玩家們,到底是 “追風者” 還是 “追趕者”,不同的 “初心” 顯然對應着不同的結果。
01 中國版 ChatGPT 的虛與實
國內企業對 ChatGPT 的態度,大致可以分為三個階段:
第一個階段是 2023 年農曆春節前。
OpenAI 在 2022 年 11 月 30 日推出了聊天機器人 ChatGPT,5 天時間註冊用户量就超過了 100 萬。期間不乏國內媒體的報道,微博等社交網絡上逐漸流行起各種説法:ChatGPT 可能將顛覆谷歌,掀起一場搜索引擎的大革命;大學生開始用 ChatGPT 寫論文,部分高校宣佈將禁用 ChatGPT……
彼時 “中國版 ChatGPT” 的話題已經在技術論壇裏小範圍討論,國內大廠的工程師們大概率有參與其中。可由於 ChatGPT 頻頻被曝出回答錯誤、存在假消息,且商業化落地的前景不明朗,國內大多數企業都選擇了緘默。
第二個階段是 ChatGPT 爆紅後。
時間來到 2023 年 1 月末,ChatGPT 的註冊用户破億,成為史上擴散速度最快的應用,這場 AI 風暴終於吹到了太平洋對岸。國內社交媒體上充斥着 ChatGPT 的對話截圖,並且出現了 “ChatGPT 概念股” 的説法。
中國的科技大廠們 “猛然醒悟”,紛紛開始就中國版 ChatGPT 表明態度:百度在 2 月 7 日官宣將在 3 月上線文心一言;騰訊在 2 月 9 日回應稱 “在相關方向上已有佈局,專項研究也在有序推進”;阿里傳出了類 ChatGPT 應用的對話截圖;京東、網易有道、科大訊飛、小米也先後發聲將推出相關產品。
第三個階段是文心一言上線後。
可能因為發佈會上的錄屏展示,百度的股價在文心一言發佈當天即下跌 10%,一度成為互聯網上的眾嘲對象,即使李彥宏和百度 CTO 王海峯均在發佈會上提前打了 “預防針”,直言模型目前 “訓練不夠充分”。
有趣的是其他科技大廠的態度。目前申請測試百度文心的用户已經百萬,超過 10 家企業用户申請調用文心一言的企業版 API。如果説 ChatGPT 的走紅只是喚醒了國內網民的好奇心,擺出了一副吃瓜羣眾的姿態,現在已然被徹底點燃了熱情。但百度文心上線近 10 天后,並未有第二家企業官宣。
箇中原因恐怕離不開 “功利” 二字。
在 ChatGPT 的方向被論證前,國內的大部分投資人和技術領袖並不敢冒險跟進,不考慮短期收益的只有少數派中的少數派;ChatGPT 爆紅後,特別是 “ChatGPT 概念股” 出現後,中國版 ChatGPT 已經成為一種政治正確,大廠們的表態也就無可厚非;文心一言上線後則是另一個極端,在 “肉眼可見” 的技術差距面前,暫時收斂鋒芒是否也是一種避開被輿論討伐的選項?
“中國版 ChatGPT” 或喧囂或冷靜的背後,似乎還有另外一種解釋:在用户心理閾值最高的時候,跟風放出消息不失為一種聰明的商業策略,而落實到產品上,終歸還要結合現實需求。就像科大訊飛董事長劉慶峯的觀點:AI 要兑現紅利,標準之一就是有看得見摸得着的應用場景。
02 空間換時間的認知陷阱
至於 ChatGPT 類產品的商業空間,微軟無疑是最佳的參考對象。
作為 OpenAI 的大股東,微軟被中國網友們戲稱為 “坐在副駕駛上狂飆”,尤其是在 ChatGPT 的商業應用上,微軟可謂動作頻頻:1 月 17 日的公開活動上,微軟 CEO 納德拉表示,計劃將 ChatGPT 整合進其所有產品;半個多月後,微軟正式推出新版必應,將 ChatGPT 與搜索引擎融合;GPT-4 發佈兩天後,微軟發佈了新功能 Copilot,將用於 Word、PowerPoint、Excel、Outlook 等產品中,可自動生成 PPT、自動寫文章……
為何國內企業並沒有兵臨城下的危機感?最常見的説法是 “空間換時間”,中文互聯網的特殊性,為國內企業留下了充足的反應時間。譬如晚於 ChatGPT 三個半月誕生的文心一言,照舊抓住了大把的機會。諸如此類的説辭在某種程度上有其道理,卻也存在一些不可小覷的認知陷阱。
比如中文語料庫的問題。
在不少人的理解中,中文語料庫是 ChatGPT 難以逾越的壁壘,李彥宏稱 “文心一言是更適合中國市場的人工智能模型”,理由正是中文特殊的分詞和語法結構。中文語料庫的建設需要大量的人力、物力和財力投入,同時還需要考慮語料的質量、版權等問題,幾乎是一個天然避風港。
可國內互聯網巨頭的 “數據隔離” 也是不爭的事實,儘管在工信部的施壓下,大廠們被迫 “拆牆”,但不同平台的數據仍然很難產生交流和總結,無形中增加了模型訓練的難度。就連文心一言的圖像生成都經被傳出先將中文指令翻譯成英文,再根據英文描述生成圖像,中文語料的現狀可見一斑。
再比如技術上的硬性門檻。
國內並不缺少媲美 GPT-3 的大模型,這也是很多企業自信可以開發出 ChatGPT 類應用的直接原因,然而算力資源、工程能力、模型迭代策略、調優機制等能力的缺失也是不爭的事實。還是文心一言的例子,雖然有 ChatGPT 這個參考答案,迭代、調優的路還是要重新走一遍才行。
一個淺顯的道理,OpenAI 在推出 ChatGPT 前,已經在大模型上默默耕耘了 4 年時間,期間不知道有多少次的試錯。畢竟一個現象級產品誕生,往往是資源、基礎技術、人才、產業需求等一系列因素的集大成,國內到底有多少家企業能夠越過技術上的硬性門檻,目前還是一個未知數。
按照華西證券的測算,百度的文心一言想要達到 ChatGPT 目前的能力,需要補足的訓練、推理和數據標註成本分別為 2.29 億元、13.62 億元、0.05 億元,需要保持年均 16 億元的投入。
倘若再算上維持正常運轉的人力成本、訓練模型的算力成本、存儲數據的數據中心耗費,百度想要追平 OpenAI 需要付出相當龐大的投入,遑論其他缺少前期佈局的企業。
就在百度們還在追趕 GPT-3.5 時,OpneAI 已經有條不紊的推出了功能更為強大的 GPT-4,並在 3 月 24 日宣佈部分解除了 ChatGPT 無法聯網的限制,正在推出 ChatGPT 插件,可以訪問訓練數據外的信息,增加一些特定功能,開始了從工具向平台的進化。
03 “追風者” 無緣 “星辰大海”
最糟糕的並不是做一個 “追趕者”,而是 “反應遲鈍” 的追風者。
早在 2020 年的時候,OpenAI 就藉着 GPT-3 一鳴驚人,隨即在全球範圍內拉開了一場大模型軍備競賽,國內的華為、智源、浪潮、阿里雲、百度、騰訊等企業先後發佈了自家的預訓練大模型品,並不斷從 NLP 延伸出了雙語、CV、跨模態等大模型。
而後的一段日子裏,來自中國的大模型覇榜各類榜單,學術論文如流水線般生產。一些研究人員以發論文為己任,鮮有人思考學術以外的價值;企業對大模型滿懷信心,並試圖推動產業落地中來變現。最終也僅僅止步於此,沒有一家企業能創造性地越過大模型到 ChatGPT 的天塹。
有人在知乎上問道:阻礙國內團隊研究 ChatGPT 這樣產品的障礙有哪些,技術、錢還是領導力?OneFlow 創始人袁進輝的回答道出了問題的本質:“需要有遠見且為理想而持之以恆的人。”
不可否認的是,“談理想” 在國內的商業環境中多少有些感性且不切實際,甚至連相應的故事都是 “舶來品”:圖靈獎得主 Hinton 潛心研究神經網絡 50 多年;斯坦福的李飛飛教授花費 6 年時間創建了 ImageNet 數據集;OpenAI 最初被定義為非營利性人工智能組織,要向全世界公開分享他們的研究成果……
國內盛行的是另一種商業故事:張小龍在 2010 年帶領一個不到 10 人的團隊,用了不足 70 天的時間開發出了微信的第一個版本;出行大戰中勝出的滴滴,曾用四個月的時間拉來了一萬多名網約車司機;2013 年才立項測試外賣項目的美團,到了 2014 年就將外賣送到了全國 200 個城市……
問題在於,追逐風口、快速創新的打法到了人工智能時代是否依然奏效?不妨借用英偉達 CEO 黃仁勳的一個比喻:“每家公司都應該知道,未來的軟件開發有點像煉丹,這是一個 MLOps 的過程。” 其中的 MLOps 可以翻譯為 “人工智能研發運營體系”,涵蓋開發、部署、交付驗證三個必不可少的過程。
在中國版 ChatGPT 的研發中,國內的企業已然走了 “捷徑”:比如 ChatGPT 最大的特點就是引入了人類反饋的強化學習(RLHF),即用人工標註的方式,不斷地將結果去反饋給模型,讓模型不斷自我迭代。百度等企業後來也採用了 RLHF 模式,並輔以 “對話增強、有監督精調” 等機制,底層架構和技術路徑都與 OpenAI 相似。
最危險的地方恰恰也在於此。
不少人將 ChatGPT 比作是移動互聯網時代的 iPhone,意味着 ChatGPT 只是個開始,將有更多超出固有認知的新事物出現,可能是聊天機器人,可能是 “畫圖高手”,也可能是當前還想不到的應用。同時也預示着層出不窮的新風口,凡是風口,皆有虛實,一味跟着別人走路,總有踏空的時候。
李彥宏曾在 2021 年初的內部信中寫道:“我們熬得過萬丈孤獨,藏得下星辰大海。” 冥冥中成了中國企業面對 ChatGPT 時的命運寫照:熬不過萬丈孤獨,何談星辰大海?
04 寫在最後
中國版 ChatGPT 的故事還在繼續,不排除有越來越多的相似產品上線,甚至出現 “百花齊放” 的局面。
需要警惕的是那些自詡為 “國產之光 “的追風者,聊天機器人的風口來臨時,迅速整頓人馬開發類似應用;AI 生圖的熱度起來後,快速組建團隊抓住新的契機;而當新的風向標出現時,會再次調轉方向...... 不願意在底層技術上 “苦修”,註定要在風口裏兜兜轉轉。
因為 “追趕者” 仍抱有理想、信念和希望,“追風者” 註定只會在風中盤旋,被風勢裹挾。
本文版權歸屬原作者/機構所有。
當前內容僅代表作者觀點,與本平台立場無關。內容僅供投資者參考,亦不構成任何投資建議。如對本平台提供的內容服務有任何疑問或建議,請聯絡我們。

