--- title: "Meta 發佈 Muse Spark:華人天團廢墟重建,最恨 Llama 的果然是小扎自己" type: "News" locale: "zh-HK" url: "https://longbridge.com/zh-HK/news/282118707.md" description: "Meta 發佈了其首個模型 Muse Spark,標誌着公司在經歷 Llama 崩盤後進行的全面重啓。扎克伯格拆除舊團隊,組建以華人科學家為主的新 AI 研發團隊,推翻了 Llama 時代的技術架構。Muse Spark 是一個輕量級的多模態推理模型,具備原生多模態能力,能夠在視覺空間中進行思考,並構建視覺元素之間的關係。" datetime: "2026-04-09T01:45:30.000Z" locales: - [zh-CN](https://longbridge.com/zh-CN/news/282118707.md) - [en](https://longbridge.com/en/news/282118707.md) - [zh-HK](https://longbridge.com/zh-HK/news/282118707.md) --- # Meta 發佈 Muse Spark:華人天團廢墟重建,最恨 Llama 的果然是小扎自己 在 Llama 徹底 “崩盤” 後,Meta 創始人兼 CEO 扎克伯格親手拆除過去的團隊、架構並徹底走向 “反 Llama” 路線,砸百億建起華人科學家為主的 AI 研發天團。今天,在 9 個月後,在整個硅谷關注以及不少的冷嘲熱諷下,他和這個全新團隊終於交出了首個模型作品,試圖證明一整套從零搭建的 AI 棧跑通了。 4 月 8 日,Meta 正式發佈了 MSL(Meta Superintelligence Labs)成立以來的第一個模型 Muse Spark。九個月前 Alexandr Wang 加入 Meta 擔任首席 AI 官,帶着從 OpenAI 挖來的一眾華人核心研究員,推翻了整個 Llama 時代的技術棧——新基礎設施、新架構、新數據管道,全部從零開始。Muse Spark 就是這套新棧的第一個產出,現在它已經直接上線驅動 Meta AI。 在 Llama 4 因 benchmark 造假風波陷入被動的背景下,這是 Meta 的一次全面重啓。 ## Muse Spark 是什麼 它是個處處和 Llama 反着來的模型: 一個被刻意設計得小巧、輕量、高響應速度的原生多模態推理閉源模型。 先看它的核心能力: 原生多模態:不是把視覺編碼器硬縫到文本模型上的"拼接式"架構。從預訓練階段起,文本、圖像、語音就在同一個高維特徵空間裏訓練。這意味着它處理圖片不需要先翻譯成文字描述,而是直接從像素級別提取信息。 Visual Chain of Thought(VCoT,視覺思維鏈):傳統的思維鏈推理是純文本的,模型在文字裏逐步拆解問題。Muse Spark 把這個機制引入了視覺空間——它能在圖像中"思考",自主構建視覺元素之間的空間和邏輯關係。 Contemplating Mode(沉思模式):對標 Gemini Deep Think 和 GPT Pro 的極限推理模式。區別在於它不是單線串行推理,而是在後台同時拉起多個並行運算的子 agent,各自處理任務的不同維度,最後由主控系統融合結果。沉思模式下 Humanity's Last Exam 達到 58%,FrontierScience Research 達到 38%。 工具調用和多 agent 編排:原生支持,不是後期拼上去的。 目前 Muse Spark 已在 meta.ai 和 Meta AI app 上線,Contemplating Mode 逐步灰度中,同時向少量合作伙伴開放私有 API 預覽。 ## 技術亮點:華人天團都是怎麼説的 今天 MSL 團隊幾乎集體在 X 上發帖,幾個關鍵信息值得注意: Meta 官方博客放出了一個極其重要的數據:在預訓練階段,新棧達到同等能力水平所需的算力比上一代 Llama 4 Maverick 減少了超過一個數量級。不是百分之幾十的優化,是 10 倍以上的效率提升。博客原文稱"over an order of magnitude less compute",並且"significantly more efficient than the leading base models available for comparison"——甚至比其他家的基座模型都高效。 Alexandr Wang 的九條 thread 裏最重要的一句話:"we saw predictable scaling across pretraining, RL, & test-time reasoning." 預訓練、強化學習、測試時推理,三條線都看到了可預測的 scaling——這可能比任何 benchmark 數字都重要。它意味着這套棧不是調出來的一個 lucky shot,而是一個 scaling 曲線平滑的系統。 首席科學家趙晟佳(@shengjia\_zhao)的描述更具體:這個模型的訓練路徑是"端到端的教育"——school(預訓練)、homework(RL)、on-the-job training(產品部署後的持續學習)。他強調"we just got started"。 RL 部分有個很有意思的技術細節。畢樹超(@shuchaobi)提到了訓練中最痛苦的部分:大規模 RL 的不穩定性,以及"fighting reward hacking"——對抗獎勵機制作弊。但官方博客顯示他們最終把 RL 跑到了"smooth, predictable gains"的狀態,pass@1 和 pass@16 都呈 log-linear 增長,而且在未見過的評測集上也能平滑泛化。 更有意思的是 RL 訓練中出現的"相變"現象:團隊在訓練時引入了 thinking time penalty(思考時間懲罰),模型先是通過更長的思考來提升表現,然後在懲罰壓力下學會了"思想壓縮"——用更少的 token 解決同樣的問題,之後又再次延伸推理以達到更高性能。Ananya Kumar(@ananyaku)在帖中稱這個過程"pretty neat"。 Ananya 放出的另一組圖表顯示了多 agent 推理的關鍵 insight:多個 agent 並行推理,在相同延遲下能達到比單 agent 更高的性能。換句話説,Contemplating Mode 不只是"讓模型想得更久",而是"讓多個模型同時想不同的事"。 餘家輝(@jhyuxm)作為多模態底座的總架構師,説了一句很有意思的話:"It's been a fulfilling journey not just building the model, but the team and culture behind it." 建模型是一回事,建團隊和文化是另一回事——他們在九個月裏兩件事同時幹了。 Jason Wei(@\_jasonwei)的回憶最有畫面感:"第一週我們在食堂吃了一頓漫長的晚餐,暢想研究方向,然後回到桌前寫了一個基本的 inference llama 腳本。現在我們有了一套相當完整的技術棧,第一個模型已經發布。" ## Benchmark:什麼領先不領先,回到牌桌先 再來看看 benchmark 數據: HealthBench Hard(極高難度醫學問答):Muse Spark 42.8,GPT-5.4 是 40.1,Gemini 3.1 Pro 只有 20.6,Claude Opus 4.6 只有 14.8。絕對領先,接近其他模型的兩到三倍。 CharXiv Reasoning(科研論文圖表深度理解):86.4,全行業最高。 SWE-bench Pro(真實軟件工程任務):55.0%,超過 Claude Opus 4.6 的 51.9%。 Artificial Analysis 綜合智能指數:52 分,而 GPT-5.4 和 Gemini 3.1 Pro 都是 57 分。 Meta 想借此説明:Muse Spark 在醫療多模態和科研圖表理解這兩個需要"真正看懂圖"的領域,已經是毫無爭議的第一。在代碼工程上也進入了第一梯隊。 不過,目前它綜合能力距離 GPT-5.4 和 Gemini 3.1 Pro 還有 5 分的差距,純文本高級推理方面也還沒撼動 Anthropic 和 Google 的積累。 這樣的表現繼續引來一些批評,Ndea 的 cofounder François Chollet 直接稱 Muse Spark"已經看起來是個令人失望的模型",他認為模型過度優化了公開 benchmark,犧牲了實際可用性——而 Alexandr Wang 的回應很剋制:承認模型在 ARC AGI 2 等評測上表現不佳,並強調這些數據已主動公開。 Chollet 的質疑不是沒有道理。Llama 4 時代 Meta 就因 benchmark 造假風波傷過一次信譽。這次 Muse Spark 在 Artificial Analysis 綜合指數上仍落後 GPT-5.4 和 Gemini 3.1 Pro 五分,醫療和科研圖表上的斷檔領先,是否來自對特定 benchmark 的定向優化,還是原生多模態架構帶來的真實能力?這個問題需要更多第三方獨立測試來回答。 Muse Spark 當然重要,但它最重要的意義不在於今天的 benchmark 分數。 從這個模型的設計,到這些研究員此次重點介紹的技術亮點,一切都指向對 Llama 的反對:Llama 4 的大潰敗在扎克伯格眼裏是個要徹底翻篇的事情,所以不只是它的開源路線,它的模型架構要改,更重要的是它整個訓練基礎設施都得給它掀翻了。此次這幾位核心作者的 x 發文,看起來都在圍繞底層技術棧的重構來介紹。Muse Spark 這次發佈也讓人更明白扎克伯格挖來 Alexander Wang 的目的。 最恨 Llama 的還得是扎克伯格自己,他必須得全盤給它推翻,在廢墟里重建。 此次的發佈也是 Meta 招兵買馬後那支華人天團交出的第一個模型。餘家輝(前 OpenAI 感知團隊負責人、GPT-4o 核心開發者)、趙晟佳(前 OpenAI 合成數據研發領頭人、ChatGPT 聯合創作者)、任泓宇(前 OpenAI o1/o3 推理核心貢獻者)、畢樹超(前 OpenAI 多模態後訓練負責人)、林紀(前 OpenAI 核心優化專家)——這些被 Meta 用上億美元的簽字費挖過來的 AI 科學家,在紙面上自然是一個明星團隊,他們必須先用一個模型讓 Meta 回到牌桌上。這是扎克伯格的當務之急。 扎克伯格在九個月前交給他們的是一張白紙。今天他們交出的答案其實更多是一整套預訓練、RL、測試時推理的完整棧,並且——關鍵在這——scaling 曲線是平滑的、可預測的。 更大的模型已經在路上了。 ### 相關股票 - [METU.US](https://longbridge.com/zh-HK/quote/METU.US.md) - [IXP.US](https://longbridge.com/zh-HK/quote/IXP.US.md) - [CLOU.US](https://longbridge.com/zh-HK/quote/CLOU.US.md) - [METW.US](https://longbridge.com/zh-HK/quote/METW.US.md) - [FDN.US](https://longbridge.com/zh-HK/quote/FDN.US.md) - [XLC.US](https://longbridge.com/zh-HK/quote/XLC.US.md) - [IDGT.US](https://longbridge.com/zh-HK/quote/IDGT.US.md) - [XSW.US](https://longbridge.com/zh-HK/quote/XSW.US.md) - [METD.US](https://longbridge.com/zh-HK/quote/METD.US.md) - [FBL.US](https://longbridge.com/zh-HK/quote/FBL.US.md) - [IGV.US](https://longbridge.com/zh-HK/quote/IGV.US.md) - [FCOM.US](https://longbridge.com/zh-HK/quote/FCOM.US.md) - [XDAT.US](https://longbridge.com/zh-HK/quote/XDAT.US.md) - [VOX.US](https://longbridge.com/zh-HK/quote/VOX.US.md) - [DAT.US](https://longbridge.com/zh-HK/quote/DAT.US.md) - [META.US](https://longbridge.com/zh-HK/quote/META.US.md) - [DTCR.US](https://longbridge.com/zh-HK/quote/DTCR.US.md) ## 相關資訊與研究 - [Meta 加碼投資 CoreWeave 210 億美元股價雙漲](https://longbridge.com/zh-HK/news/282269298.md) - [繼 Meta 後 CoreWeave 又拿下 Anthropic 算力大單 股價強彈逾 10%](https://longbridge.com/zh-HK/news/282384732.md) - [智冠成立「AI 發展中心」深化生態系!鍾興博喊要用 AI 打破手遊競爭僵局](https://longbridge.com/zh-HK/news/282345541.md) - [LLM 紅利見頂!大摩點名下一個 10 兆美元金礦:世界模型](https://longbridge.com/zh-HK/news/282263598.md) - [Meta 剛砸 210 億美元又添合作!CoreWeave 與 Anthropic 簽長約 股價勁揚](https://longbridge.com/zh-HK/news/282365980.md)