--- title: "MiniMax M3 實測:第一流的模型,已經對執行層動手了" type: "News" locale: "zh-HK" url: "https://longbridge.com/zh-HK/news/291277125.md" description: "MiniMax 發佈旗艦模型 M3,重點強化編程與 Agent 能力。該模型具備 1M token 長上下文、原生多模態及自主執行復雜任務特性,能獨立進行長期規劃與多輪協作。實測顯示其可自主復現論文或優化代碼長達數十小時,旨在構建具有競爭力的 Agent 生態,挑戰現有開發者工具地位。" datetime: "2026-06-30T11:46:46.000Z" locales: - [zh-CN](https://longbridge.com/zh-CN/news/291277125.md) - [en](https://longbridge.com/en/news/291277125.md) - [zh-HK](https://longbridge.com/zh-HK/news/291277125.md) --- # MiniMax M3 實測:第一流的模型,已經對執行層動手了 一款開源模型,能否同時擁有頂級編程能力、超長上下文理解能力和原生多模態能力? 這幾乎就是 Agent 的全部意涵。而我們提出這個問題,是因為從 OpenClaw 時代開始,一家公司就已經無法僅僅憑藉在模型上的投入,證明自己是一家押注未來的公司。勝負全在 Agent。 MiniMax M3 似乎也意識到了這一點。 作為 MiniMax 的最新款旗艦模型,M3 重點強化了 Coding 與 Agent 能力。相比傳統代碼模型的 “把代碼寫出來”,它更強調長期規劃、多輪協作和自主執行復雜任務的能力。 通俗地説,這些能力共同指向一個目標,那就是讓模型獨立學習幾十萬字的資料、持續工作數小時、調用工具、編寫代碼,並最終交付一個真正可用的結果。這成為了同步推出的 MiniMax Code 產品的核心技術基礎。 **那麼衍生出來的問題是,當 Claude Code 已經成為開發者最認可的 Agent 工具之一,M3 的能力,又是否足以支撐 MiniMax 建立一個自己的,真正有競爭力的 Agent 生態?** ## **12 小時自主工作,你説的長任務有多長?** **Coding 能力的進化,已經不僅僅是寫代碼了。** 如果只把 MiniMax M3 當成一個更擅長寫代碼的模型,會嚴重低估此次發佈的重點。M3 更值得拿出來討論的,是它在長任務、長上下文和 Agentic 工作流上的能力。 官方給出的兩個案例很能説明這一點。一個是 M3 用接近 12 小時自主復現 ICLR 論文,另一個是用約 24 小時、147 輪迭代完成 CUDA Kernel 優化。這兩個例子本質上都是典型的長鏈路任務,模型需要理解目標、拆解步驟、不斷檢查中間結果,並在失敗之後繼續調整。 從模型架構上看,MiniMax M3 的 1M token 上下文和 MSA 稀疏注意力架構,就是為這類場景服務的。長上下文的意義不只是能塞進更多文本,更重要的是降低長任務中的信息斷裂。比如一個真實代碼倉庫、一個複雜需求文檔、一組歷史修改記錄,這些真實需求都不是幾千 token 就能講清楚的。如果模型每次只能看到局部,就很容易出現 “前面答得對,後面改崩了” 的情況。而更長的上下文窗口,則給了模型跨文件、跨階段理解任務的可能。 不過必須澄清的是,官方宣傳的 1M 上下文,並不等於當前所有開發者都能無門檻、穩定地使用完整的 1M 上下文能力。模型頁雖然寫明 “支持最高 1M,保證至少 512K”,但按量計費頁進一步説明,超過 512K 的輸入能力在發佈初期屬於限時、限量供應,需要聯繫銷售開通。 長上下文能力確實是這次 M3 發佈的核心亮點,但在真實任務中,它更適合被理解成一種 “能力上限”,而不是一個已經對所有用户完全開放的默認規格。 ## **創業模擬器,M3 與 Sonnet 4.6 的直接競技** 為了測試 M3 的代碼交付能力,我設計了一個相對完整的小項目,讓模型從零實現一個 “創業模擬器” 小遊戲。同樣接受這項考驗的,還有 Claude Sonnet 4.6。 請從零開發一個 AI 創業模擬器 Web App。 要求: 1\. 用户可以創建一家初創公司,輸入公司名、行業、初始資金、目標用户。 2\. 遊戲採用回合制,每一輪代表一個月。 3\. 用户每輪可以選擇 3 個經營決策,例如產品開發、市場推廣、招聘、融資、降本、用户調研。 4\. AI 根據當前公司狀態和用户決策生成月度報告。 5\. 頁面需要展示資金、用户數、收入、團隊士氣、產品完成度、市場熱度、競爭壓力。 6\. 每輪結束後更新這些指標。 7\. 需要有成功和失敗結局。 8\. 使用 React + Tailwind 實現,界面要像一個現代化創業經營遊戲。 9\. AI 接口可以先用 mock 數據,但代碼結構要方便之後接入真實 LLM API10。 10\. 請保證項目可以運行,並提供啓動方式。 提示詞並不複雜,但這項任務其實很適合測試 Coding Agent 的綜合能力。因為它同時考驗需求理解、狀態管理、UI 設計、數值系統和平衡性。用户在遊戲中扮演創業者,每一輪需要決定做什麼產品、招什麼人、怎麼定價、要不要融資、如何營銷,AI 則根據這些決策反饋用户增長、現金流、團隊士氣、市場反應和競爭壓力。 具體來説,真正的難點主要包括三個維度: - 狀態管理:小遊戲一旦進入多輪決策,就很容易出現頁面刷新後數據丟失、上一輪數據覆蓋下一輪、歷史記錄無法回看、進度條超過 100% 之類的問題。甚至遊戲只是這些問題的高發場景,類似的需求,在很多軟件開發任務中都可以看到。 - UI 表現:很多模型生成的 “遊戲” 其實只是一個表單加幾個按鈕,功能能跑,但一眼看過去就有股 “塑料感”。 - 數值平衡:這是最難的一環,數值設計不當很容易出現一兩輪遊戲之後現金流爆炸、用户數異常增長、遊戲迅速失控的問題,最終影響可玩性。什麼樣的數值設計可以説是平衡?這需要模型在複雜任務拆解之外,更有一層對遊戲的審美和品味。 M3 用大約 11 分鐘完成了程序編寫和代碼檢查。最終生成的小遊戲可以正常運行,界面簡潔,並且帶有一定動畫效果。更重要的是,它基本處理好了前面提到的幾個核心難點,公司數據展示清晰,歷史記錄可以回看,遊戲進度和經營指標也沒有明顯混亂。 作為對比的是,Sonnet 4.6 完成同一任務大約用了 19 分鐘。它同樣讓遊戲正常跑了起來,還在內容設計上增加了一點小巧思。比如加入突發事件,讓遊戲難度和不確定性更強,遊戲性確實更高。 這是個很有意思的差異。 基於 M3 的 MiniMax Code 更像是一個執行力很強的工程師 Agent,它會非常忠實地圍繞你的 prompt 做交付。優勢也在這裏,動作快,完成度高,指令給過去,他會圍繞最終產物,把頁面、邏輯、狀態和基礎交互一起搭出來。 而基於 Sonnet 4.6 的 Claude Code 則更像一個會主動補充產品想法的合作者,它可能會在需求之外加入一些額外的設計。 這兩種風格沒有絕對好壞。**如果你的需求非常明確,希望模型嚴格按照指令快速完成,M3 的表現會非常令人舒適,畢竟誰不想要一個指哪打哪的員工。**但如果你期待模型主動補完產品創意、增強玩法、提出更多可能性,Sonnet 4.6 目前在創造性擴展上仍然更有優勢。 ## **看圖寫前端:原生多模態能力實測 ** 相比於長任務和 Coding 能力,多模態可能是 MiniMax M3 身上最容易被低估的一項能力。 很多模型宣傳自己支持圖片輸入,但實際體驗下來,往往停留在 “看圖説話” 的階段,能夠描述頁面裏有哪些元素,卻很難將這些視覺信息進一步轉化為可運行的代碼。而 M3 此次給我的最大驚喜恰恰在於,它展現出了從視覺理解到工程交付的完整鏈路能力。 為了測試這一點,我選擇了一個非常直接的場景,將 MiniMax 自己的官網首頁作為測試對象。我向 M3 提供了兩張首頁截圖,並要求它使用 React 與 Tailwind CSS 對頁面進行復刻。 根據這張網頁截圖,使用 React + Tailwind CSS 完整復刻頁面。 要求: 1\. 儘可能還原原頁面的: - 整體佈局 - 字體層級 - 卡片設計 - 配色方案 - 間距與留白 - 按鈕樣式 2\. 頁面必須響應式,適配: - Desktop - Tablet - Mobile 3\. 識別並還原: - Hero Section - 導航欄 - Feature Cards - CTA Button - Banner - Footer 4\. 使用組件化結構: - Navbar.tsx - Hero.tsx - FeatureCard.tsx - Footer.tsx 5\. 不要使用佔位符代碼。 6\. 輸出完整可運行代碼。 讓生成頁面與截圖視覺相似度達到 90% 以上。 之所以選擇官網首頁,是因為這類營銷頁面往往包含大量視覺設計細節:導航欄、卡片模塊、漸變背景、按鈕樣式、信息層級以及複雜的頁面佈局。對於模型而言,這不僅是在識別圖片中的文字,更是在理解整個頁面背後的設計邏輯。 最終結果讓我有些意外。 首先是頁面結構的還原度。 僅憑兩張截圖,M3 對首頁整體佈局的復刻已經達到了極高的水平。導航欄、Hero 區域、功能介紹模塊以及各個內容板塊之間的層級關係都被準確識別出來,頁面整體結構與原網頁幾乎保持一致。 如果只從宏觀佈局來看,幾乎已經到了以假亂真的程度。剩下的差異主要集中在一些字體間距、元素對齊方式等細節層面。但就是把這些不一樣的局部畫面單獨截圖出來,你都得回憶一下,MiniMax 那個正版的官網畫面是不是就長這樣。 更有意思的是,M3 並沒有機械地 “照抄截圖”。 由於測試時我只提供了首頁部分內容,理論上模型無法得知頁面下半部分應該如何設計。但在實際生成過程中,M3 並沒有簡單地留下空白,而是主動分析了官網整體的視覺風格和配色特點,自行為後續頁面補充了若干風格一致的內容模塊。雖然這些內容並不完全對應真實官網,但無論是配色方案還是設計語言,都與原頁面保持了高度一致,整體看起來並不會讓人產生明顯的割裂感。 **這一點其實非常重要。因為它説明模型並不僅僅是在做 OCR 或者截圖復刻,而是在嘗試理解頁面背後的設計規律,並利用這種理解完成合理推斷。** 除了視覺層面的還原之外,M3 對交互元素的識別也給我留下了不錯的印象。 在生成結果中,模型正確識別出了導航欄、按鈕等交互式組件,併為這些元素賦予了實際功能,例如導航欄中的菜單項可以直接跳轉到對應內容區域,按鈕組件也被正確實現為可點擊元素。 更進一步,M3 還主動為頁面補充了交互動效。當鼠標懸停在按鈕上時,頁面會出現過渡動畫與視覺反饋。這些效果並沒有出現在我的提示詞中,而是模型根據現代 Web 產品的設計習慣自行加入的細節。 綜合來説,M3 展現出了相當強的競爭力。它不僅能夠理解網頁截圖中的結構信息,還能識別交互邏輯、推斷缺失內容,並最終生成一個能夠運行、能夠交互、視覺風格高度一致的前端頁面。 當然,它並非沒有不足。頁面中仍然存在一些排版細節上的偏差,但考慮到整個過程幾乎完全由模型自主完成,並且輸入僅僅是兩張截圖,這樣的結果已經遠超最初的預期。 ## **價格也是生產力** 價格是大模型競爭中最現實的話題。過去一年,AI 行業幾乎經歷了一輪全面價格戰,DeepSeek 用極低的 API 成本掀翻市場,OpenAI、Anthropic 和 Google 持續提升模型能力的同時也在不斷調整定價策略。 從官方定位來看,M3 主打的是 Frontier Coding、Agent、多模態與百萬級上下文能力。這首先決定了它的競爭對手,不是那些用於智能客服、會議紀要的中端模型,而是當前行業最前沿的一批旗艦模型,比如 Claude Opus 4.8、GPT-5.5、Gemini 2.5 Pro、GLM-5.2 以及 DeepSeek V4-Pro 等。 直接看價格,目前 Claude Opus 4.8 的 API 價格為輸入 5 美元/百萬 Token、輸出 25 美元/百萬 Token。GPT-5.5 為輸入 5 美元、輸出 30 美元。DeepSeek V4-Pro 在最新降價後為輸入 0.435 美元、輸出 0.87 美元。相比之下,MiniMax M3 官方價格為輸入 0.6 美元、輸出 2.4 美元。 如果以 Claude Opus 4.8 為基準,M3 的輸入成本僅約為其 12%,輸出成本不到 10%,即便面對 OpenAI 最新的 GPT-5.5,M3 的調用成本也只有其十分之一左右。換句話説,在同樣消耗 100 萬輸入 Token 和 100 萬輸出 Token 的情況下,使用 GPT-5.5 需要 35 美元,使用 Claude Opus 4.8 需要 30 美元,而 M3 僅需 3 美元。 對於用量不大的普通用户來説,這種差異尚不明顯,但如果你是已經習慣了每天靠大量 Agent 處理長文檔、批量生成代碼或者構建 AI 應用的開發者,成本差距則會被迅速放大。**假設一個項目每月消耗 1000 萬輸入 Token 和 1000 萬輸出 Token,使用 Claude Opus 4.7 的成本約為 300 美元,而使用 M3 僅需 30 美元左右。在保持接近旗艦模型能力的前提下,十倍左右的成本優勢已經足以影響技術選型。** 當然,價格從來不能脱離能力討論。 如果 M3 只有廉價可圈可點,那麼這樣的比較並沒有意義。但有意思的是,在 MiniMax 公佈的多項評測中,M3 瞄準的正是 Claude Opus 4.7、GPT-5.5 和 Gemini 旗艦模型所在的競爭區間。在 SWE-Bench Pro 等代碼能力測試中,M3 已經超過 GPT-5.5 與 Gemini 旗艦模型,接近 Claude Opus 4.7,在長任務 Agent 場景下,官方展示的論文復現和 CUDA 優化案例甚至能夠持續自主運行十幾個小時以上。 更關鍵的是,M3 並非依靠閹割能力來換取低價格。如前所述,這份價格背後是 100 萬 Token 上下文窗口、原生多模態架構以及 Agent 工作流能力,而 Claude、GPT 和 Gemini 恰恰也是沿着同樣的方向演進。換句話説,M3 試圖參與競爭的並不是 “便宜模型市場”,而是最昂貴、也是技術含量最高的旗艦模型市場。 因此,如果只看絕對價格,DeepSeek V4-Pro 仍然是目前最激進的價格屠夫。但如果同時考慮 Coding、Agent、多模態和超長上下文這些旗艦能力,那麼 M3 可能是目前整個市場裏最具衝擊力的性價比選手之一。 ## **MiniMax Code 的野心** 幾項測試下來,MiniMax M3 給我的感受是,它已經可以位列國產模型裏最值得關注的 Coding / Agentic 底座模型之一,尤其在長任務、長上下文、多模態輸入和代碼交付方面,展現出了很強的競爭力。 注意底座模型這個定位,此前城頭變幻大王旗的各種 Benchmark 一度讓性能水平成為衡量大模型的唯一角度。但是當我們討論 Agent,討論落地,更現實的維度是可用性。MiniMax M3 看起來無意再去挑戰 “最強模型” 的地位,而是在嘗試成為 Agent 時代最具性價比的基礎設施。 這是一條更清晰的路徑。隨着 Claude Code、Codex 等 Agent 產品逐漸成為開發者的主要入口,模型越來越迴歸其原本的角色,即一種底層能力。對於開發者而言,一個模型是否能完成長任務、調用工具、理解圖像並控制成本,遠比單純跑分更重要。 從這個角度看,MiniMax 的策略相當清晰。M3 在長上下文、多模態和 Coding 能力上穩穩躋身第一梯隊,同時又以遠低於 GPT、Claude 的價格,將這些能力帶到更多真實工作流之中。 **真實工作流,這也是 MiniMax Code 此刻問世的原因。** 賣 Token 的商業模式曇花一現,事實是開發者用腳投票的時候毫不猶豫,API 供應商越來越容易被替代。在這種情況下,模型能力領先 3 個月,不代表就有 3 個月的商業優勢。這迫使模型廠商追問,為什麼要把最有議價權的入口拱手讓人? 此外今天生產級的 Agent,已經是一種高度集成的系統工程能力。一個複雜任務的交付水平,只有部分取決於模型,還有部分取決於 Agent Runtime。如果找對測評角度,每家都有 “SOTA” 模型,那麼執行層的爭奪將成為新的競爭焦點之一。 **所以 MiniMax Code 是一個寫代碼的軟件嗎?** 這仍然是 IDE 的視角。它實際上是模型、代碼庫上下文、工具調用、執行環境、工作流編排,所有決定 Agent 最終效果的東西都在這裏了。有了這些,MiniMax 才有了爭奪開發者工作流入口的資格。 本文來源:雷峯網 風險提示及免責條款 市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。 ### 相關股票 - [00100.HK](https://longbridge.com/zh-HK/quote/00100.HK.md) - [OpenAI.NA](https://longbridge.com/zh-HK/quote/OpenAI.NA.md) - [GOOG.US](https://longbridge.com/zh-HK/quote/GOOG.US.md) - [GOOGL.US](https://longbridge.com/zh-HK/quote/GOOGL.US.md) ## 相關資訊與研究 - [MiniMax M3 接入支付寶 TokenPay](https://longbridge.com/zh-HK/news/289860915.md) - [《外資精點》美銀首予 MiniMax「買入」評級,目標價 500 元](https://longbridge.com/zh-HK/news/289722775.md) - [內地電訊商押注 AI 中移動據報設 Token 辦公室 惟股價未見興奮](https://longbridge.com/zh-HK/news/291220984.md) - [【AI】百度智能雲發布百度千帆 Token Plan 企業版,提供 GLM-5.2 等模型](https://longbridge.com/zh-HK/news/290762351.md) - [思路研究會|藉服務國家「Token 出海」 打造數字服務貿易新樞紐](https://longbridge.com/zh-HK/news/291217439.md)