---
title: "Meta 發佈 Muse Spark：華人天團廢墟重建，最恨 Llama 的果然是小扎自己"
type: "News"
locale: "zh-HK"
url: "https://longbridge.com/zh-HK/news/282118707.md"
description: "Meta 發佈了其首個模型 Muse Spark，標誌着公司在經歷 Llama 崩盤後進行的全面重啓。扎克伯格拆除舊團隊，組建以華人科學家為主的新 AI 研發團隊，推翻了 Llama 時代的技術架構。Muse Spark 是一個輕量級的多模態推理模型，具備原生多模態能力，能夠在視覺空間中進行思考，並構建視覺元素之間的關係。"
datetime: "2026-04-09T01:45:30.000Z"
locales:
  - [zh-CN](https://longbridge.com/zh-CN/news/282118707.md)
  - [en](https://longbridge.com/en/news/282118707.md)
  - [zh-HK](https://longbridge.com/zh-HK/news/282118707.md)
---

# Meta 發佈 Muse Spark：華人天團廢墟重建，最恨 Llama 的果然是小扎自己

在 Llama 徹底 “崩盤” 後，Meta 創始人兼 CEO 扎克伯格親手拆除過去的團隊、架構並徹底走向 “反 Llama” 路線，砸百億建起華人科學家為主的 AI 研發天團。今天，在 9 個月後，在整個硅谷關注以及不少的冷嘲熱諷下，他和這個全新團隊終於交出了首個模型作品，試圖證明一整套從零搭建的 AI 棧跑通了。

4 月 8 日，Meta 正式發佈了 MSL（Meta Superintelligence Labs）成立以來的第一個模型 Muse Spark。九個月前 Alexandr Wang 加入 Meta 擔任首席 AI 官，帶着從 OpenAI 挖來的一眾華人核心研究員，推翻了整個 Llama 時代的技術棧——新基礎設施、新架構、新數據管道，全部從零開始。Muse Spark 就是這套新棧的第一個產出，現在它已經直接上線驅動 Meta AI。

在 Llama 4 因 benchmark 造假風波陷入被動的背景下，這是 Meta 的一次全面重啓。

## Muse Spark 是什麼

它是個處處和 Llama 反着來的模型：

一個被刻意設計得小巧、輕量、高響應速度的原生多模態推理閉源模型。

先看它的核心能力：

原生多模態：不是把視覺編碼器硬縫到文本模型上的"拼接式"架構。從預訓練階段起，文本、圖像、語音就在同一個高維特徵空間裏訓練。這意味着它處理圖片不需要先翻譯成文字描述，而是直接從像素級別提取信息。

Visual Chain of Thought（VCoT，視覺思維鏈）：傳統的思維鏈推理是純文本的，模型在文字裏逐步拆解問題。Muse Spark 把這個機制引入了視覺空間——它能在圖像中"思考"，自主構建視覺元素之間的空間和邏輯關係。

Contemplating Mode（沉思模式）：對標 Gemini Deep Think 和 GPT Pro 的極限推理模式。區別在於它不是單線串行推理，而是在後台同時拉起多個並行運算的子 agent，各自處理任務的不同維度，最後由主控系統融合結果。沉思模式下 Humanity's Last Exam 達到 58%，FrontierScience Research 達到 38%。

工具調用和多 agent 編排：原生支持，不是後期拼上去的。

目前 Muse Spark 已在 meta.ai 和 Meta AI app 上線，Contemplating Mode 逐步灰度中，同時向少量合作伙伴開放私有 API 預覽。

## 技術亮點：華人天團都是怎麼説的

今天 MSL 團隊幾乎集體在 X 上發帖，幾個關鍵信息值得注意：

Meta 官方博客放出了一個極其重要的數據：在預訓練階段，新棧達到同等能力水平所需的算力比上一代 Llama 4 Maverick 減少了超過一個數量級。不是百分之幾十的優化，是 10 倍以上的效率提升。博客原文稱"over an order of magnitude less compute"，並且"significantly more efficient than the leading base models available for comparison"——甚至比其他家的基座模型都高效。

Alexandr Wang 的九條 thread 裏最重要的一句話："we saw predictable scaling across pretraining, RL, & test-time reasoning." 預訓練、強化學習、測試時推理，三條線都看到了可預測的 scaling——這可能比任何 benchmark 數字都重要。它意味着這套棧不是調出來的一個 lucky shot，而是一個 scaling 曲線平滑的系統。

首席科學家趙晟佳（@shengjia\_zhao）的描述更具體：這個模型的訓練路徑是"端到端的教育"——school（預訓練）、homework（RL）、on-the-job training（產品部署後的持續學習）。他強調"we just got started"。

RL 部分有個很有意思的技術細節。畢樹超（@shuchaobi）提到了訓練中最痛苦的部分：大規模 RL 的不穩定性，以及"fighting reward hacking"——對抗獎勵機制作弊。但官方博客顯示他們最終把 RL 跑到了"smooth, predictable gains"的狀態，pass@1 和 pass@16 都呈 log-linear 增長，而且在未見過的評測集上也能平滑泛化。

更有意思的是 RL 訓練中出現的"相變"現象：團隊在訓練時引入了 thinking time penalty（思考時間懲罰），模型先是通過更長的思考來提升表現，然後在懲罰壓力下學會了"思想壓縮"——用更少的 token 解決同樣的問題，之後又再次延伸推理以達到更高性能。Ananya Kumar（@ananyaku）在帖中稱這個過程"pretty neat"。

Ananya 放出的另一組圖表顯示了多 agent 推理的關鍵 insight：多個 agent 並行推理，在相同延遲下能達到比單 agent 更高的性能。換句話説，Contemplating Mode 不只是"讓模型想得更久"，而是"讓多個模型同時想不同的事"。

餘家輝（@jhyuxm）作為多模態底座的總架構師，説了一句很有意思的話："It's been a fulfilling journey not just building the model, but the team and culture behind it." 建模型是一回事，建團隊和文化是另一回事——他們在九個月裏兩件事同時幹了。

Jason Wei（@\_jasonwei）的回憶最有畫面感："第一週我們在食堂吃了一頓漫長的晚餐，暢想研究方向，然後回到桌前寫了一個基本的 inference llama 腳本。現在我們有了一套相當完整的技術棧，第一個模型已經發布。"

## Benchmark：什麼領先不領先，回到牌桌先

再來看看 benchmark 數據：

HealthBench Hard（極高難度醫學問答）：Muse Spark 42.8，GPT-5.4 是 40.1，Gemini 3.1 Pro 只有 20.6，Claude Opus 4.6 只有 14.8。絕對領先，接近其他模型的兩到三倍。

CharXiv Reasoning（科研論文圖表深度理解）：86.4，全行業最高。

SWE-bench Pro（真實軟件工程任務）：55.0%，超過 Claude Opus 4.6 的 51.9%。

Artificial Analysis 綜合智能指數：52 分，而 GPT-5.4 和 Gemini 3.1 Pro 都是 57 分。

Meta 想借此説明：Muse Spark 在醫療多模態和科研圖表理解這兩個需要"真正看懂圖"的領域，已經是毫無爭議的第一。在代碼工程上也進入了第一梯隊。

不過，目前它綜合能力距離 GPT-5.4 和 Gemini 3.1 Pro 還有 5 分的差距，純文本高級推理方面也還沒撼動 Anthropic 和 Google 的積累。

這樣的表現繼續引來一些批評，Ndea 的 cofounder François Chollet 直接稱 Muse Spark"已經看起來是個令人失望的模型"，他認為模型過度優化了公開 benchmark，犧牲了實際可用性——而 Alexandr Wang 的回應很剋制：承認模型在 ARC AGI 2 等評測上表現不佳，並強調這些數據已主動公開。

Chollet 的質疑不是沒有道理。Llama 4 時代 Meta 就因 benchmark 造假風波傷過一次信譽。這次 Muse Spark 在 Artificial Analysis 綜合指數上仍落後 GPT-5.4 和 Gemini 3.1 Pro 五分，醫療和科研圖表上的斷檔領先，是否來自對特定 benchmark 的定向優化，還是原生多模態架構帶來的真實能力？這個問題需要更多第三方獨立測試來回答。

Muse Spark 當然重要，但它最重要的意義不在於今天的 benchmark 分數。

從這個模型的設計，到這些研究員此次重點介紹的技術亮點，一切都指向對 Llama 的反對：Llama 4 的大潰敗在扎克伯格眼裏是個要徹底翻篇的事情，所以不只是它的開源路線，它的模型架構要改，更重要的是它整個訓練基礎設施都得給它掀翻了。此次這幾位核心作者的 x 發文，看起來都在圍繞底層技術棧的重構來介紹。Muse Spark 這次發佈也讓人更明白扎克伯格挖來 Alexander Wang 的目的。

最恨 Llama 的還得是扎克伯格自己，他必須得全盤給它推翻，在廢墟里重建。

此次的發佈也是 Meta 招兵買馬後那支華人天團交出的第一個模型。餘家輝（前 OpenAI 感知團隊負責人、GPT-4o 核心開發者）、趙晟佳（前 OpenAI 合成數據研發領頭人、ChatGPT 聯合創作者）、任泓宇（前 OpenAI o1/o3 推理核心貢獻者）、畢樹超（前 OpenAI 多模態後訓練負責人）、林紀（前 OpenAI 核心優化專家）——這些被 Meta 用上億美元的簽字費挖過來的 AI 科學家，在紙面上自然是一個明星團隊，他們必須先用一個模型讓 Meta 回到牌桌上。這是扎克伯格的當務之急。

扎克伯格在九個月前交給他們的是一張白紙。今天他們交出的答案其實更多是一整套預訓練、RL、測試時推理的完整棧，並且——關鍵在這——scaling 曲線是平滑的、可預測的。

更大的模型已經在路上了。

### 相關股票

- [METU.US](https://longbridge.com/zh-HK/quote/METU.US.md)
- [IXP.US](https://longbridge.com/zh-HK/quote/IXP.US.md)
- [CLOU.US](https://longbridge.com/zh-HK/quote/CLOU.US.md)
- [METW.US](https://longbridge.com/zh-HK/quote/METW.US.md)
- [FDN.US](https://longbridge.com/zh-HK/quote/FDN.US.md)
- [XLC.US](https://longbridge.com/zh-HK/quote/XLC.US.md)
- [IDGT.US](https://longbridge.com/zh-HK/quote/IDGT.US.md)
- [XSW.US](https://longbridge.com/zh-HK/quote/XSW.US.md)
- [METD.US](https://longbridge.com/zh-HK/quote/METD.US.md)
- [FBL.US](https://longbridge.com/zh-HK/quote/FBL.US.md)
- [IGV.US](https://longbridge.com/zh-HK/quote/IGV.US.md)
- [FCOM.US](https://longbridge.com/zh-HK/quote/FCOM.US.md)
- [XDAT.US](https://longbridge.com/zh-HK/quote/XDAT.US.md)
- [VOX.US](https://longbridge.com/zh-HK/quote/VOX.US.md)
- [DAT.US](https://longbridge.com/zh-HK/quote/DAT.US.md)
- [META.US](https://longbridge.com/zh-HK/quote/META.US.md)
- [DTCR.US](https://longbridge.com/zh-HK/quote/DTCR.US.md)

## 相關資訊與研究

- [Meta 加碼投資 CoreWeave 210 億美元股價雙漲](https://longbridge.com/zh-HK/news/282269298.md)
- [LLM 紅利見頂！大摩點名下一個 10 兆美元金礦：世界模型](https://longbridge.com/zh-HK/news/282263598.md)
- [繼 Meta 後 CoreWeave 又拿下 Anthropic 算力大單 股價強彈逾 10%](https://longbridge.com/zh-HK/news/282384732.md)
- [智冠成立「AI 發展中心」深化生態系！鍾興博喊要用 AI 打破手遊競爭僵局](https://longbridge.com/zh-HK/news/282345541.md)
- [Meta 剛砸 210 億美元又添合作！CoreWeave 與 Anthropic 簽長約 股價勁揚](https://longbridge.com/zh-HK/news/282365980.md)