作者:周源/華爾街見聞9 月 1 日,美團正式對外發布並開源了自研大模型 LongCat-Flash-Chat。這是美團首次將大模型作為完整產品開放給行業與開發者。模型採用業界流行的 MoE(Mixture-of-Experts)架構,總參數規模高達 5600 億(560B),但每次推理僅激活 186 億-313 億參數,平均約 270 億,平均激活率僅 4.8%。儘管激活率如此之低,但據美團官方稱,“在多項智能體相關測試中,該模型展現出明顯優勢,同時在推理速度上可超過 100 tokens/s”。目前,該模型代碼與權重全部開源,並採用 MIT((MIT License:全球最流行、最寬鬆的開源軟件許可證之一)許可證。這一動作除了技術意義,主要折射了美團在人工智能戰略上的深層考量。從參數堆疊到工程均衡在當下的大模型競爭中,單純的參數規模早已不是新鮮話題。業界已經經歷過 “誰的模型更大” 的階段,如今更重要的是在算力約束和部署效率中找到平衡。美團的 LongCat-Flash 選擇 MoE 路線,即在極大總參數量的基礎上,通過專家路由實現按需激活。這樣做的結果是:模型保留龐大潛在表徵能力,但實際推理開銷被控制在與常見中大型模型相當的水平。在落地應用的過程中,工程化細節非常關鍵。傳統 MoE 模型容易遇到路由不穩定與通信成本高的問題,美團通過在路由機制中引入 “零計算專家”,讓一部分 token 快速跳過計算,從而保證整體效率;同時通過 ScMoE 方式增加計算與通信的重疊度,緩解了多節點部署時的瓶頸。這些改造並不花哨,卻觸及了 MoE 落地的真正痛點:在真實硬件和調度條件下,如何保證模型既能跑得快,又能穩定復現。與近來部分大模型強調鏈式推理、長鏈邏輯不同,LongCat-Flash 被美團官方定義成 “non-thinking foundation model”,即 “非思考型基礎模型”。這一定位背後隱含着美團對應用場景的重新理解。美團並不試圖在學術測試層面證明模型能實現多步推理,而把重點放在智能體任務:工具調用、任務編排、環境交互以及多輪信息加工等實際應用層。這種導向與美團的業務邏輯高度契合。美團的本地生活服務是一套複雜系統,涉及到商户信息、配送時效、地理位置、庫存狀態和支付規則等環節。用户一次請求往往要經過多個子系統的協同與決策。如果模型在每個環節都能以工具的形式完成調用和交互,就能把 AI 從單純的對話助手轉變為真正的流程引擎。故而,相比展示模型的 “思維深度”,美團更重視的模型穩定執行力,顯然對業務更具價值。在美團官方描述中,LongCat-Flash 推理速度超過 100 tokens/s,這指標被強調成 “顯著優勢”。對行業人士來説,速度從來不是孤立的數字,而是直接映射到部署成本和用户體驗的關鍵變量。MoE 架構本身對吞吐有天然挑戰:專家路由的不穩定,會導致不同請求的耗時,存在明顯差異,多卡通信則可能拖累整體效率。美團之所以能在高總參數規模下仍然宣稱高吞吐,正是依賴於路由和通信的優化。更重要的是,這模型能適配主流推理框架,包括 SGLang 與 vLLM。這意味着企業用户無需大幅改造部署棧,就能較為直接地復現實測結果。但從商業角度看,企業更關注的其實是單位 token 成本和大規模併發時的穩定性。一個模型在單機環境下表現亮眼,但如果在真實流量下延遲不穩定,或在批量請求中,錯誤率有明顯提升,那麼就難以真正成為生產力工具。美團的選擇是在架構層面先解決可擴展性與吞吐問題,再通過開放部署框架,由開發者自行評估成本曲線。這是 “先給出可跑通的基線,再交給市場驗證” 的思路,很可能比空洞的性能對比,在現實應用層面,更具實際意義。開源與許可的隱性指向與國內不少廠商只開放部分權重或附帶 “非商用限制” 不同,美團這次採取更為徹底的開源策略:權重與代碼同時發佈,並且使用 MIT 許可。這樣的選擇,在法律與生態兩個維度上都有不可忽視的含義。就法律角度看,MIT 許可的限制最少,允許自由修改、分發和商用,幾乎不給企業應用設置額外障礙;這對那些希望在自有產品中集成模型的公司而言,無疑是個友好信號。站在生態角度,MIT 許可意味着美團願把模型當作公共資產,讓更多開發者基於此,做二次開發與實驗。這不僅能加快模型的迭代速度,也能幫助美團在激烈的開源競爭中發出更大聲量。若是落腳在具體操作層,美團選擇同時發佈於 GitHub 與 Hugging Face,這倆平台分別代表開發者社羣與模型分發的主流渠道,能確保模型快速被接觸與使用。因此在開源動作背後,實際上是美團發起的一次對開發者生態的爭奪戰役:誰能在早期吸引更多開發者在自己的模型上試水,就更可能在後續形成應用鏈路與工具生態。在公開的模型卡中,美團展示了 LongCat-Flash 在多項基準維度的測試結果:在 TerminalBench、τ²-Bench、AceBench 和 VitaBench 等以智能體為核心的評測中表現突出,而在通用問答、數學和代碼等常見維度,則與一線大模型基本處於同一水平。這説明 LongCat-Flash 並非為了全面超越現有主流模型,而是選擇差異化的競爭路徑:這個模型的強項在於多工具協作、環境交互和流程編排,這與美團強調的應用場景高度一致。如果開發者希望構建的是一個問答型助手,它或許並不比其他開源模型更優;但如果要構建涉及多工具調用、信息整合與鏈路執行的智能體,LongCat-Flash 的定位恰好擊中市場需求。對於美團來説,開源不僅僅是對外展示的手段,更是與內部業務實踐結合的結果。美團本地生活場景天然是智能體的最佳試驗田:配送鏈路、商户信息、實時庫存和用户交互構成了一個複雜的生態系統。若模型能在這一生態中穩定地承擔起工具調用和流程編排的角色,那麼美團的運營效率、用户體驗乃至整體平台競爭力都會得到提升。這也是為何美團沒有把重點放在能否解出更復雜的邏輯推理題,而是集中在能否更穩健地調用工具完成任務。美團要的是一個能穩定完成上百萬次工具調用、降低系統出錯率的模型;顯然,美團認為,這比一個在學術測試中領先幾個百分點的模型更有現實價值。LongCat-Flash 的開源並不僅僅是美團內部的事。就整個行業的價值,美團這次給出的是一個可供直接使用的高性能 MoE 模型,尤其在智能體應用逐漸成為產業關注重點的當下,一個強調工具調用與流程編排能力的開源底座,能加速行業內的應用探索。這種外溢效應可能體現在兩個方面:一方面,中小團隊可基於模型快速驗證自己的智能體產品,而無需從零搭建底層模型;另一方面,更多行業場景(如物流調度、客服系統、知識管理)也可能借助該模型進行實驗。這些場景與美團的本地生活或許並不完全相同,但在流程複雜性和工具依賴度上有相通之處。通過 MIT 開源許可,美團等於為這些場景提供了一個低門檻的基礎設施。對開發者而言,LongCat-Flash 的價值是提供了一個在智能體維度上經過訓練和優化的開放模型,可直接應用於需要工具協作的任務鏈路;對企業用户的價值,真正的考驗是,如何把模型嵌入現有的系統中,並處理由此帶來的合規、監控和成本問題。在這哥過程其中,最值得關注的不是模型本身的準確度,而是在流程中的穩定性與可控性:當調用失敗時是否能及時降級,當外部環境變化時是否能快速適配,當面對高併發時是否能保持性能一致。只有解決這些問題,美團推出的這個開源模型,才能真正成為商業系統的一部分,而不僅僅是技術展示。美團如此重視模型的現實價值,那麼就很顯然,開源 LongCat-Flash 並非單純的技術炫技,而是一次明確的戰略表態:美團選擇了一條與強調 “思考” 不同的路線,把重心置於工具調用與流程執行的智能體能力層面,並通過工程化優化解決 MoE 的落地難題。MIT 許可的特徵是徹底開源,因此美團的這一選擇不僅服務於其內部業務,也開放給整個行業生態。未來,LongCat-Flash 的真正價值不在於參數規模有多大,而在於否在複雜的業務鏈路中穩定運轉,推動智能體應用從試驗走向大規模落地。