---
title: "MiniMax M3 實測：第一流的模型，已經對執行層動手了"
type: "News"
locale: "zh-HK"
url: "https://longbridge.com/zh-HK/news/291277125.md"
description: "MiniMax 發佈旗艦模型 M3，重點強化編程與 Agent 能力。該模型具備 1M token 長上下文、原生多模態及自主執行復雜任務特性，能獨立進行長期規劃與多輪協作。實測顯示其可自主復現論文或優化代碼長達數十小時，旨在構建具有競爭力的 Agent 生態，挑戰現有開發者工具地位。"
datetime: "2026-06-30T11:46:46.000Z"
locales:
  - [zh-CN](https://longbridge.com/zh-CN/news/291277125.md)
  - [en](https://longbridge.com/en/news/291277125.md)
  - [zh-HK](https://longbridge.com/zh-HK/news/291277125.md)
---

# MiniMax M3 實測：第一流的模型，已經對執行層動手了

一款開源模型，能否同時擁有頂級編程能力、超長上下文理解能力和原生多模態能力？

這幾乎就是 Agent 的全部意涵。而我們提出這個問題，是因為從 OpenClaw 時代開始，一家公司就已經無法僅僅憑藉在模型上的投入，證明自己是一家押注未來的公司。勝負全在 Agent。

MiniMax M3 似乎也意識到了這一點。

作為 MiniMax 的最新款旗艦模型，M3 重點強化了 Coding 與 Agent 能力。相比傳統代碼模型的 “把代碼寫出來”，它更強調長期規劃、多輪協作和自主執行復雜任務的能力。

通俗地説，這些能力共同指向一個目標，那就是讓模型獨立學習幾十萬字的資料、持續工作數小時、調用工具、編寫代碼，並最終交付一個真正可用的結果。這成為了同步推出的 MiniMax Code 產品的核心技術基礎。

**那麼衍生出來的問題是，當 Claude Code 已經成為開發者最認可的 Agent 工具之一，M3 的能力，又是否足以支撐 MiniMax 建立一個自己的，真正有競爭力的 Agent 生態？**

## **12 小時自主工作，你説的長任務有多長？**

**Coding 能力的進化，已經不僅僅是寫代碼了。**

如果只把 MiniMax M3 當成一個更擅長寫代碼的模型，會嚴重低估此次發佈的重點。M3 更值得拿出來討論的，是它在長任務、長上下文和 Agentic 工作流上的能力。

官方給出的兩個案例很能説明這一點。一個是 M3 用接近 12 小時自主復現 ICLR 論文，另一個是用約 24 小時、147 輪迭代完成 CUDA Kernel 優化。這兩個例子本質上都是典型的長鏈路任務，模型需要理解目標、拆解步驟、不斷檢查中間結果，並在失敗之後繼續調整。

從模型架構上看，MiniMax M3 的 1M token 上下文和 MSA 稀疏注意力架構，就是為這類場景服務的。長上下文的意義不只是能塞進更多文本，更重要的是降低長任務中的信息斷裂。比如一個真實代碼倉庫、一個複雜需求文檔、一組歷史修改記錄，這些真實需求都不是幾千 token 就能講清楚的。如果模型每次只能看到局部，就很容易出現 “前面答得對，後面改崩了” 的情況。而更長的上下文窗口，則給了模型跨文件、跨階段理解任務的可能。

不過必須澄清的是，官方宣傳的 1M 上下文，並不等於當前所有開發者都能無門檻、穩定地使用完整的 1M 上下文能力。模型頁雖然寫明 “支持最高 1M，保證至少 512K”，但按量計費頁進一步説明，超過 512K 的輸入能力在發佈初期屬於限時、限量供應，需要聯繫銷售開通。

長上下文能力確實是這次 M3 發佈的核心亮點，但在真實任務中，它更適合被理解成一種 “能力上限”，而不是一個已經對所有用户完全開放的默認規格。

## **創業模擬器，M3 與 Sonnet 4.6 的直接競技**

為了測試 M3 的代碼交付能力，我設計了一個相對完整的小項目，讓模型從零實現一個 “創業模擬器” 小遊戲。同樣接受這項考驗的，還有 Claude Sonnet 4.6。

請從零開發一個 AI 創業模擬器 Web App。

要求：

1\. 用户可以創建一家初創公司，輸入公司名、行業、初始資金、目標用户。

2\. 遊戲採用回合制，每一輪代表一個月。

3\. 用户每輪可以選擇 3 個經營決策，例如產品開發、市場推廣、招聘、融資、降本、用户調研。

4\. AI 根據當前公司狀態和用户決策生成月度報告。

5\. 頁面需要展示資金、用户數、收入、團隊士氣、產品完成度、市場熱度、競爭壓力。

6\. 每輪結束後更新這些指標。

7\. 需要有成功和失敗結局。

8\. 使用 React + Tailwind 實現，界面要像一個現代化創業經營遊戲。

9\. AI 接口可以先用 mock 數據，但代碼結構要方便之後接入真實 LLM API10。

10\. 請保證項目可以運行，並提供啓動方式。

提示詞並不複雜，但這項任務其實很適合測試 Coding Agent 的綜合能力。因為它同時考驗需求理解、狀態管理、UI 設計、數值系統和平衡性。用户在遊戲中扮演創業者，每一輪需要決定做什麼產品、招什麼人、怎麼定價、要不要融資、如何營銷，AI 則根據這些決策反饋用户增長、現金流、團隊士氣、市場反應和競爭壓力。

具體來説，真正的難點主要包括三個維度：

-   狀態管理：小遊戲一旦進入多輪決策，就很容易出現頁面刷新後數據丟失、上一輪數據覆蓋下一輪、歷史記錄無法回看、進度條超過 100% 之類的問題。甚至遊戲只是這些問題的高發場景，類似的需求，在很多軟件開發任務中都可以看到。
-   UI 表現：很多模型生成的 “遊戲” 其實只是一個表單加幾個按鈕，功能能跑，但一眼看過去就有股 “塑料感”。
-   數值平衡：這是最難的一環，數值設計不當很容易出現一兩輪遊戲之後現金流爆炸、用户數異常增長、遊戲迅速失控的問題，最終影響可玩性。什麼樣的數值設計可以説是平衡？這需要模型在複雜任務拆解之外，更有一層對遊戲的審美和品味。

M3 用大約 11 分鐘完成了程序編寫和代碼檢查。最終生成的小遊戲可以正常運行，界面簡潔，並且帶有一定動畫效果。更重要的是，它基本處理好了前面提到的幾個核心難點，公司數據展示清晰，歷史記錄可以回看，遊戲進度和經營指標也沒有明顯混亂。

作為對比的是，Sonnet 4.6 完成同一任務大約用了 19 分鐘。它同樣讓遊戲正常跑了起來，還在內容設計上增加了一點小巧思。比如加入突發事件，讓遊戲難度和不確定性更強，遊戲性確實更高。

這是個很有意思的差異。

基於 M3 的 MiniMax Code 更像是一個執行力很強的工程師 Agent，它會非常忠實地圍繞你的 prompt 做交付。優勢也在這裏，動作快，完成度高，指令給過去，他會圍繞最終產物，把頁面、邏輯、狀態和基礎交互一起搭出來。

而基於 Sonnet 4.6 的 Claude Code 則更像一個會主動補充產品想法的合作者，它可能會在需求之外加入一些額外的設計。

這兩種風格沒有絕對好壞。**如果你的需求非常明確，希望模型嚴格按照指令快速完成，M3 的表現會非常令人舒適，畢竟誰不想要一個指哪打哪的員工。**但如果你期待模型主動補完產品創意、增強玩法、提出更多可能性，Sonnet 4.6 目前在創造性擴展上仍然更有優勢。

## **看圖寫前端：原生多模態能力實測  
**

相比於長任務和 Coding 能力，多模態可能是 MiniMax M3 身上最容易被低估的一項能力。

很多模型宣傳自己支持圖片輸入，但實際體驗下來，往往停留在 “看圖説話” 的階段，能夠描述頁面裏有哪些元素，卻很難將這些視覺信息進一步轉化為可運行的代碼。而 M3 此次給我的最大驚喜恰恰在於，它展現出了從視覺理解到工程交付的完整鏈路能力。

為了測試這一點，我選擇了一個非常直接的場景，將 MiniMax 自己的官網首頁作為測試對象。我向 M3 提供了兩張首頁截圖，並要求它使用 React 與 Tailwind CSS 對頁面進行復刻。

根據這張網頁截圖，使用 React + Tailwind CSS 完整復刻頁面。

要求：

1\. 儘可能還原原頁面的：

-   整體佈局
-   字體層級
-   卡片設計
-   配色方案
-   間距與留白
-   按鈕樣式

2\. 頁面必須響應式，適配：

-   Desktop
-   Tablet
-   Mobile

3\. 識別並還原：

-   Hero Section
-   導航欄
-   Feature Cards
-   CTA Button
-   Banner
-   Footer

4\. 使用組件化結構：

-   Navbar.tsx
-   Hero.tsx
-   FeatureCard.tsx
-   Footer.tsx

5\. 不要使用佔位符代碼。

6\. 輸出完整可運行代碼。

讓生成頁面與截圖視覺相似度達到 90% 以上。

之所以選擇官網首頁，是因為這類營銷頁面往往包含大量視覺設計細節：導航欄、卡片模塊、漸變背景、按鈕樣式、信息層級以及複雜的頁面佈局。對於模型而言，這不僅是在識別圖片中的文字，更是在理解整個頁面背後的設計邏輯。

最終結果讓我有些意外。

首先是頁面結構的還原度。

僅憑兩張截圖，M3 對首頁整體佈局的復刻已經達到了極高的水平。導航欄、Hero 區域、功能介紹模塊以及各個內容板塊之間的層級關係都被準確識別出來，頁面整體結構與原網頁幾乎保持一致。

如果只從宏觀佈局來看，幾乎已經到了以假亂真的程度。剩下的差異主要集中在一些字體間距、元素對齊方式等細節層面。但就是把這些不一樣的局部畫面單獨截圖出來，你都得回憶一下，MiniMax 那個正版的官網畫面是不是就長這樣。

更有意思的是，M3 並沒有機械地 “照抄截圖”。

由於測試時我只提供了首頁部分內容，理論上模型無法得知頁面下半部分應該如何設計。但在實際生成過程中，M3 並沒有簡單地留下空白，而是主動分析了官網整體的視覺風格和配色特點，自行為後續頁面補充了若干風格一致的內容模塊。雖然這些內容並不完全對應真實官網，但無論是配色方案還是設計語言，都與原頁面保持了高度一致，整體看起來並不會讓人產生明顯的割裂感。

**這一點其實非常重要。因為它説明模型並不僅僅是在做 OCR 或者截圖復刻，而是在嘗試理解頁面背後的設計規律，並利用這種理解完成合理推斷。**

除了視覺層面的還原之外，M3 對交互元素的識別也給我留下了不錯的印象。

在生成結果中，模型正確識別出了導航欄、按鈕等交互式組件，併為這些元素賦予了實際功能，例如導航欄中的菜單項可以直接跳轉到對應內容區域，按鈕組件也被正確實現為可點擊元素。

更進一步，M3 還主動為頁面補充了交互動效。當鼠標懸停在按鈕上時，頁面會出現過渡動畫與視覺反饋。這些效果並沒有出現在我的提示詞中，而是模型根據現代 Web 產品的設計習慣自行加入的細節。

綜合來説，M3 展現出了相當強的競爭力。它不僅能夠理解網頁截圖中的結構信息，還能識別交互邏輯、推斷缺失內容，並最終生成一個能夠運行、能夠交互、視覺風格高度一致的前端頁面。

當然，它並非沒有不足。頁面中仍然存在一些排版細節上的偏差，但考慮到整個過程幾乎完全由模型自主完成，並且輸入僅僅是兩張截圖，這樣的結果已經遠超最初的預期。

## **價格也是生產力**

價格是大模型競爭中最現實的話題。過去一年，AI 行業幾乎經歷了一輪全面價格戰，DeepSeek 用極低的 API 成本掀翻市場，OpenAI、Anthropic 和 Google 持續提升模型能力的同時也在不斷調整定價策略。

從官方定位來看，M3 主打的是 Frontier Coding、Agent、多模態與百萬級上下文能力。這首先決定了它的競爭對手，不是那些用於智能客服、會議紀要的中端模型，而是當前行業最前沿的一批旗艦模型，比如 Claude Opus 4.8、GPT-5.5、Gemini 2.5 Pro、GLM-5.2 以及 DeepSeek V4-Pro 等。

直接看價格，目前 Claude Opus 4.8 的 API 價格為輸入 5 美元/百萬 Token、輸出 25 美元/百萬 Token。GPT-5.5 為輸入 5 美元、輸出 30 美元。DeepSeek V4-Pro 在最新降價後為輸入 0.435 美元、輸出 0.87 美元。相比之下，MiniMax M3 官方價格為輸入 0.6 美元、輸出 2.4 美元。

如果以 Claude Opus 4.8 為基準，M3 的輸入成本僅約為其 12%，輸出成本不到 10%，即便面對 OpenAI 最新的 GPT-5.5，M3 的調用成本也只有其十分之一左右。換句話説，在同樣消耗 100 萬輸入 Token 和 100 萬輸出 Token 的情況下，使用 GPT-5.5 需要 35 美元，使用 Claude Opus 4.8 需要 30 美元，而 M3 僅需 3 美元。

對於用量不大的普通用户來説，這種差異尚不明顯，但如果你是已經習慣了每天靠大量 Agent 處理長文檔、批量生成代碼或者構建 AI 應用的開發者，成本差距則會被迅速放大。**假設一個項目每月消耗 1000 萬輸入 Token 和 1000 萬輸出 Token，使用 Claude Opus 4.7 的成本約為 300 美元，而使用 M3 僅需 30 美元左右。在保持接近旗艦模型能力的前提下，十倍左右的成本優勢已經足以影響技術選型。**

當然，價格從來不能脱離能力討論。

如果 M3 只有廉價可圈可點，那麼這樣的比較並沒有意義。但有意思的是，在 MiniMax 公佈的多項評測中，M3 瞄準的正是 Claude Opus 4.7、GPT-5.5 和 Gemini 旗艦模型所在的競爭區間。在 SWE-Bench Pro 等代碼能力測試中，M3 已經超過 GPT-5.5 與 Gemini 旗艦模型，接近 Claude Opus 4.7，在長任務 Agent 場景下，官方展示的論文復現和 CUDA 優化案例甚至能夠持續自主運行十幾個小時以上。

更關鍵的是，M3 並非依靠閹割能力來換取低價格。如前所述，這份價格背後是 100 萬 Token 上下文窗口、原生多模態架構以及 Agent 工作流能力，而 Claude、GPT 和 Gemini 恰恰也是沿着同樣的方向演進。換句話説，M3 試圖參與競爭的並不是 “便宜模型市場”，而是最昂貴、也是技術含量最高的旗艦模型市場。

因此，如果只看絕對價格，DeepSeek V4-Pro 仍然是目前最激進的價格屠夫。但如果同時考慮 Coding、Agent、多模態和超長上下文這些旗艦能力，那麼 M3 可能是目前整個市場裏最具衝擊力的性價比選手之一。

## **MiniMax Code 的野心**

幾項測試下來，MiniMax M3 給我的感受是，它已經可以位列國產模型裏最值得關注的 Coding / Agentic 底座模型之一，尤其在長任務、長上下文、多模態輸入和代碼交付方面，展現出了很強的競爭力。

注意底座模型這個定位，此前城頭變幻大王旗的各種 Benchmark 一度讓性能水平成為衡量大模型的唯一角度。但是當我們討論 Agent，討論落地，更現實的維度是可用性。MiniMax M3 看起來無意再去挑戰 “最強模型” 的地位，而是在嘗試成為 Agent 時代最具性價比的基礎設施。

這是一條更清晰的路徑。隨着 Claude Code、Codex 等 Agent 產品逐漸成為開發者的主要入口，模型越來越迴歸其原本的角色，即一種底層能力。對於開發者而言，一個模型是否能完成長任務、調用工具、理解圖像並控制成本，遠比單純跑分更重要。

從這個角度看，MiniMax 的策略相當清晰。M3 在長上下文、多模態和 Coding 能力上穩穩躋身第一梯隊，同時又以遠低於 GPT、Claude 的價格，將這些能力帶到更多真實工作流之中。

**真實工作流，這也是 MiniMax Code 此刻問世的原因。**

賣 Token 的商業模式曇花一現，事實是開發者用腳投票的時候毫不猶豫，API 供應商越來越容易被替代。在這種情況下，模型能力領先 3 個月，不代表就有 3 個月的商業優勢。這迫使模型廠商追問，為什麼要把最有議價權的入口拱手讓人？

此外今天生產級的 Agent，已經是一種高度集成的系統工程能力。一個複雜任務的交付水平，只有部分取決於模型，還有部分取決於 Agent Runtime。如果找對測評角度，每家都有 “SOTA” 模型，那麼執行層的爭奪將成為新的競爭焦點之一。

**所以 MiniMax Code 是一個寫代碼的軟件嗎？**

這仍然是 IDE 的視角。它實際上是模型、代碼庫上下文、工具調用、執行環境、工作流編排，所有決定 Agent 最終效果的東西都在這裏了。有了這些，MiniMax 才有了爭奪開發者工作流入口的資格。

本文來源：雷峯網

風險提示及免責條款

市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。

### 相關股票

- [00100.HK](https://longbridge.com/zh-HK/quote/00100.HK.md)
- [OpenAI.NA](https://longbridge.com/zh-HK/quote/OpenAI.NA.md)
- [GOOG.US](https://longbridge.com/zh-HK/quote/GOOG.US.md)
- [GOOGL.US](https://longbridge.com/zh-HK/quote/GOOGL.US.md)

## 相關資訊與研究

- [MiniMax M3 接入支付寶 TokenPay](https://longbridge.com/zh-HK/news/289860915.md)
- [《外資精點》美銀首予 MiniMax「買入」評級，目標價 500 元](https://longbridge.com/zh-HK/news/289722775.md)
- [內地電訊商押注 AI 中移動據報設 Token 辦公室 惟股價未見興奮](https://longbridge.com/zh-HK/news/291220984.md)
- [【AI】百度智能雲發布百度千帆 Token Plan 企業版，提供 GLM-5.2 等模型](https://longbridge.com/zh-HK/news/290762351.md)
- [思路研究會｜藉服務國家「Token 出海」 打造數字服務貿易新樞紐](https://longbridge.com/zh-HK/news/291217439.md)