賽道 Hyper | 百度開源 ERNIE 4.5:策略是什麼?

華爾街見聞
2025.07.01 09:37
portai
我是 PortAI,我可以總結文章信息。

在開放協作中探索技術演進。

作者:周源/華爾街見聞

6 月 30 日,百度正式開源文心大模型 4.5 系列(ERNIE 4.5),涵蓋 10 款不同參數規模的模型,包括 47B(470 億)、3B(30 億)激活參數的混合專家(MoE)模型及 0.3B(3 億)參數的稠密型模型,預訓練權重與推理代碼均完全開放。

目前,這些模型已可在飛槳星河社區、HuggingFace 等平台下載,百度智能雲千帆大模型平台也同步提供了 API(應用程序編程接口:Application Programming Interface)服務。

這一動作,延續了科技領域 “開放協作” 的傳統脈絡,也為大模型技術的落地提供了新的可能性。

但百度創始人、董事長兼 CEO 李彥宏曾在 2024 年的 WAIC(世界人工智能大會:World Artificial Intelligence Conference)上,認為開源大模型是 “智商税”。

從參數覆蓋到工具適配

百度此次開源的 10 款模型,形成了從 0.3B 到 47B 參數的梯度覆蓋,囊括基礎文本模型和視覺多模態模型(VLM)。除最小的 0.3B 模型外,其餘模型都採用異構多模態 MoE(專家混合模型:Mixture of Experts)架構。

對於算力有限的中小開發者,0.3B 參數的稠密型模型可降低部署門檻,MoE 模型則能滿足企業級複雜任務的需求。這種分層供給思路,讓不同資源條件的使用者都能找到適配的工具。

與常規的單模態 MoE 不同,此次百度開源的 ERNIE 4.5 模型是一種異構混合型,也就是通過 “分而治之” 策略提升模型性能的人工智能架構:將多個不同類型的專家模塊集成在一起,每個輸入僅激活部分相關的專家模塊,從而在不顯著增加計算量的前提下大幅提升模型容量。

這種架構的核心思想是將複雜任務分解給多個專門的 “專家模型”(Expert)處理,再通過門控網絡(Gating Network)動態選擇最優專家或組合專家輸出,從而在保持模型規模可控的同時,提升模型的表達能力和效率。

相對而言,文心大模型 4.5 系列的技術特點,集中體現在多模態能力的優化上。

作為原生多模態模型,ERNIE 4.5 對圖像、音視頻的理解能力並非簡單疊加,而是基於異構 MoE 架構實現的模態融合,沒有盲目追求單一指標的突破,而是在文本任務性能穩定的基礎上,逐步增強多模態處理能力。

觀察 ERNIE 4.5 的技術結構可以發現:ERNIE 4.5 的異構 MoE 架構包含文本專家、視覺專家和共享專家三類 FFN 專家。

FFN 專家是指混合專家模型(MoE)中,由前饋神經網絡(Feed-Forward Neural Network)構成的專家模塊。

每個 FFN 專家都可以看作是一個獨立的子模型,能處理特定類型或範圍內的數據。

模型會通過門控網絡或路由機制來確定對於每個輸入 token,應該由哪些 FFN 專家負責處理。

比如在圖像理解中,無論是日常照片還是漫畫圖標,模型都能輸出符合場景邏輯的解讀。這種能力的提升源於對多模態數據關聯性的持續學習,而非孤立的技術堆砌。

眾所周知,英偉達之所以強大,除了 AI 加速卡本身性能出色,也與以 CUDA 適配開發工具生態有緊密關係。

百度也同步推出了 ERNIE 4.5 的配套開發工具:開源完整的開發工具鏈,包括 ERNIEKit 訓練工具和 FastDeploy 推理部署工具,旨在降低開發者使用大模型的門檻,推動多模態 AI 技術的廣泛應用。

這在本質上,也是在踐行 “工具應當服務於人” 的技術倫理。

這些工具降低了模型後訓練與部署的技術門檻,使開發者無需深入掌握底層原理,就能基於開源模型做二次開發。

百度此次開源並非孤立動作,早在今年 2 月,百度便公佈了文心大模型 4.5 的開源計劃。

從生態構建的角度看,文心大模型 4.5 的開源遵循了 “技術 - 用户 - 數據” 的正向循環邏輯。

生態的價值在於連接而非控制。

百度通過開源將模型的使用權交給開發者,後者基於模型開發的應用會產生新的數據反饋,這些數據又會反哺模型迭代。

比如零售企業用其開發商品圖像識別工具時,積累的行業數據可幫助模型優化對商品特徵的捕捉;教育機構的使用則可能提升模型對教學場景的理解,這種分佈式的優化過程,比單一企業閉門研發更高效。

考量:平衡共享與可持續

飛槳平台與文心模型的 “雙層開源”,進一步強化了生態的協同性。

飛槳作為底層框架,為模型提供了運行環境;文心模型作為上層應用載體,豐富了框架的使用場景。

此等結構符合美國生物學家馬古利斯提出的 “內共生理論”——不同組件通過互利共生形成更強大的整體。

開發者在飛槳上調試文心模型時,不僅在使用工具,也在參與兩個系統的協同優化,這種深度綁定比單純的技術輸出更能增強生態粘性。

但開源不意味着無邊界的免費。

文心大模型 4.5 採用 Apache 2.0 協議,既允許商業使用,也要求保留原作者信息,這樣的制度設計平衡了共享與權益保護。

實際上,從現實角度出發,清晰的產權界定是協作的前提。

明確的協議條款讓開發者知道可以做什麼、不能做什麼,避免了技術應用中的法律風險,也為百度保留了商業變現的空間:通過雲平台 API 服務、增值工具等方式實現可持續運營。

從成本角度看,開源是一種 “分佈式研發” 策略。大模型的訓練與迭代需要持續投入算力與人力,單一企業難以承擔全部成本。

什麼是好的管理呢?很簡單,就是讓合適的人做合適的事。

百度將模型開源後,全球開發者的智慧被納入創新體系,有人優化推理速度,有人拓展應用場景。這樣的分工,讓每個參與者都能聚焦自己擅長的領域,間接降低了整體研發成本。

對行業而言,百度的開源模式提供了一種 “標準化基礎上的差異化創新” 路徑。

基礎模型的統一,減少了重複研發的浪費;而開發者的二次創新,則能滿足不同行業的個性化需求。

就像製造業側重模型對工業圖紙的理解,傳媒行業則更關注文本生成的流暢性。這是一種 “共性技術 + 個性應用” 的模式,基礎技術是基因,行業應用是其在不同環境中的表現型,豐富了技術的生態多樣性。

文心大模型 4.5 的開源,為國內大模型產業提供了一種可參考的發展範式。

不同於閉源模式的黑箱操作,開源讓技術能力變得可觸摸、可驗證。開發者可直接查看模型權重與推理代碼,當模型做出決策時,使用者能追溯其邏輯鏈條,而非被動接受結果。

從全球視角看,此次開源也是國產大模型參與國際協作的一次嘗試。

當前全球大模型領域存在多種發展路徑:有的堅持閉源商用,有的選擇部分開源,有的則完全開放。

文心大模型 4.5 的全量開源,相當於向全球開發者遞出了技術名片,其開放姿態,有助於國產技術融入全球創新網絡,在國際反饋中找準自身定位。

當然,開源並非萬能鑰匙。模型的性能最終仍需在實際應用中檢驗:在工業質檢場景中能否精準識別微小缺陷,在政務服務中能否理解複雜的民生訴求,在教育輔助中能否貼合教學規律:這些真實場景的考驗,比實驗室的評測數據更有説服力。

百度開源文心大模型 4.5 的意義,或許不在於當下的技術突破,而在於其展現的發展思路:在開放中凝聚共識,在協作中解決問題。

當越來越多的開發者參與進來,當模型在更多行業場景中落地,大模型技術才能真正走出實驗室,成為推動社會進步的實用工具,但這一過程沒有捷徑。