---
title: "MiniMax M3 实测：第一流的模型，已经对执行层动手了"
type: "News"
locale: "zh-CN"
url: "https://longbridge.com/zh-CN/news/291277125.md"
description: "MiniMax 发布旗舰模型 M3，重点强化编程与 Agent 能力。该模型具备 1M token 长上下文、原生多模态及自主执行复杂任务特性，能独立进行长期规划与多轮协作。实测显示其可自主复现论文或优化代码长达数十小时，旨在构建具有竞争力的 Agent 生态，挑战现有开发者工具地位。"
datetime: "2026-06-30T11:46:46.000Z"
locales:
  - [zh-CN](https://longbridge.com/zh-CN/news/291277125.md)
  - [en](https://longbridge.com/en/news/291277125.md)
  - [zh-HK](https://longbridge.com/zh-HK/news/291277125.md)
---

# MiniMax M3 实测：第一流的模型，已经对执行层动手了

一款开源模型，能否同时拥有顶级编程能力、超长上下文理解能力和原生多模态能力？

这几乎就是 Agent 的全部意涵。而我们提出这个问题，是因为从 OpenClaw 时代开始，一家公司就已经无法仅仅凭借在模型上的投入，证明自己是一家押注未来的公司。胜负全在 Agent。

MiniMax M3 似乎也意识到了这一点。

作为 MiniMax 的最新款旗舰模型，M3 重点强化了 Coding 与 Agent 能力。相比传统代码模型的 “把代码写出来”，它更强调长期规划、多轮协作和自主执行复杂任务的能力。

通俗地说，这些能力共同指向一个目标，那就是让模型独立学习几十万字的资料、持续工作数小时、调用工具、编写代码，并最终交付一个真正可用的结果。这成为了同步推出的 MiniMax Code 产品的核心技术基础。

**那么衍生出来的问题是，当 Claude Code 已经成为开发者最认可的 Agent 工具之一，M3 的能力，又是否足以支撑 MiniMax 建立一个自己的，真正有竞争力的 Agent 生态？**

## **12 小时自主工作，你说的长任务有多长？**

**Coding 能力的进化，已经不仅仅是写代码了。**

如果只把 MiniMax M3 当成一个更擅长写代码的模型，会严重低估此次发布的重点。M3 更值得拿出来讨论的，是它在长任务、长上下文和 Agentic 工作流上的能力。

官方给出的两个案例很能说明这一点。一个是 M3 用接近 12 小时自主复现 ICLR 论文，另一个是用约 24 小时、147 轮迭代完成 CUDA Kernel 优化。这两个例子本质上都是典型的长链路任务，模型需要理解目标、拆解步骤、不断检查中间结果，并在失败之后继续调整。

从模型架构上看，MiniMax M3 的 1M token 上下文和 MSA 稀疏注意力架构，就是为这类场景服务的。长上下文的意义不只是能塞进更多文本，更重要的是降低长任务中的信息断裂。比如一个真实代码仓库、一个复杂需求文档、一组历史修改记录，这些真实需求都不是几千 token 就能讲清楚的。如果模型每次只能看到局部，就很容易出现 “前面答得对，后面改崩了” 的情况。而更长的上下文窗口，则给了模型跨文件、跨阶段理解任务的可能。

不过必须澄清的是，官方宣传的 1M 上下文，并不等于当前所有开发者都能无门槛、稳定地使用完整的 1M 上下文能力。模型页虽然写明 “支持最高 1M，保证至少 512K”，但按量计费页进一步说明，超过 512K 的输入能力在发布初期属于限时、限量供应，需要联系销售开通。

长上下文能力确实是这次 M3 发布的核心亮点，但在真实任务中，它更适合被理解成一种 “能力上限”，而不是一个已经对所有用户完全开放的默认规格。

## **创业模拟器，M3 与 Sonnet 4.6 的直接竞技**

为了测试 M3 的代码交付能力，我设计了一个相对完整的小项目，让模型从零实现一个 “创业模拟器” 小游戏。同样接受这项考验的，还有 Claude Sonnet 4.6。

请从零开发一个 AI 创业模拟器 Web App。

要求：

1\. 用户可以创建一家初创公司，输入公司名、行业、初始资金、目标用户。

2\. 游戏采用回合制，每一轮代表一个月。

3\. 用户每轮可以选择 3 个经营决策，例如产品开发、市场推广、招聘、融资、降本、用户调研。

4\. AI 根据当前公司状态和用户决策生成月度报告。

5\. 页面需要展示资金、用户数、收入、团队士气、产品完成度、市场热度、竞争压力。

6\. 每轮结束后更新这些指标。

7\. 需要有成功和失败结局。

8\. 使用 React + Tailwind 实现，界面要像一个现代化创业经营游戏。

9\. AI 接口可以先用 mock 数据，但代码结构要方便之后接入真实 LLM API10。

10\. 请保证项目可以运行，并提供启动方式。

提示词并不复杂，但这项任务其实很适合测试 Coding Agent 的综合能力。因为它同时考验需求理解、状态管理、UI 设计、数值系统和平衡性。用户在游戏中扮演创业者，每一轮需要决定做什么产品、招什么人、怎么定价、要不要融资、如何营销，AI 则根据这些决策反馈用户增长、现金流、团队士气、市场反应和竞争压力。

具体来说，真正的难点主要包括三个维度：

-   状态管理：小游戏一旦进入多轮决策，就很容易出现页面刷新后数据丢失、上一轮数据覆盖下一轮、历史记录无法回看、进度条超过 100% 之类的问题。甚至游戏只是这些问题的高发场景，类似的需求，在很多软件开发任务中都可以看到。
-   UI 表现：很多模型生成的 “游戏” 其实只是一个表单加几个按钮，功能能跑，但一眼看过去就有股 “塑料感”。
-   数值平衡：这是最难的一环，数值设计不当很容易出现一两轮游戏之后现金流爆炸、用户数异常增长、游戏迅速失控的问题，最终影响可玩性。什么样的数值设计可以说是平衡？这需要模型在复杂任务拆解之外，更有一层对游戏的审美和品味。

M3 用大约 11 分钟完成了程序编写和代码检查。最终生成的小游戏可以正常运行，界面简洁，并且带有一定动画效果。更重要的是，它基本处理好了前面提到的几个核心难点，公司数据展示清晰，历史记录可以回看，游戏进度和经营指标也没有明显混乱。

作为对比的是，Sonnet 4.6 完成同一任务大约用了 19 分钟。它同样让游戏正常跑了起来，还在内容设计上增加了一点小巧思。比如加入突发事件，让游戏难度和不确定性更强，游戏性确实更高。

这是个很有意思的差异。

基于 M3 的 MiniMax Code 更像是一个执行力很强的工程师 Agent，它会非常忠实地围绕你的 prompt 做交付。优势也在这里，动作快，完成度高，指令给过去，他会围绕最终产物，把页面、逻辑、状态和基础交互一起搭出来。

而基于 Sonnet 4.6 的 Claude Code 则更像一个会主动补充产品想法的合作者，它可能会在需求之外加入一些额外的设计。

这两种风格没有绝对好坏。**如果你的需求非常明确，希望模型严格按照指令快速完成，M3 的表现会非常令人舒适，毕竟谁不想要一个指哪打哪的员工。**但如果你期待模型主动补完产品创意、增强玩法、提出更多可能性，Sonnet 4.6 目前在创造性扩展上仍然更有优势。

## **看图写前端：原生多模态能力实测  
**

相比于长任务和 Coding 能力，多模态可能是 MiniMax M3 身上最容易被低估的一项能力。

很多模型宣传自己支持图片输入，但实际体验下来，往往停留在 “看图说话” 的阶段，能够描述页面里有哪些元素，却很难将这些视觉信息进一步转化为可运行的代码。而 M3 此次给我的最大惊喜恰恰在于，它展现出了从视觉理解到工程交付的完整链路能力。

为了测试这一点，我选择了一个非常直接的场景，将 MiniMax 自己的官网首页作为测试对象。我向 M3 提供了两张首页截图，并要求它使用 React 与 Tailwind CSS 对页面进行复刻。

根据这张网页截图，使用 React + Tailwind CSS 完整复刻页面。

要求：

1\. 尽可能还原原页面的：

-   整体布局
-   字体层级
-   卡片设计
-   配色方案
-   间距与留白
-   按钮样式

2\. 页面必须响应式，适配：

-   Desktop
-   Tablet
-   Mobile

3\. 识别并还原：

-   Hero Section
-   导航栏
-   Feature Cards
-   CTA Button
-   Banner
-   Footer

4\. 使用组件化结构：

-   Navbar.tsx
-   Hero.tsx
-   FeatureCard.tsx
-   Footer.tsx

5\. 不要使用占位符代码。

6\. 输出完整可运行代码。

让生成页面与截图视觉相似度达到 90% 以上。

之所以选择官网首页，是因为这类营销页面往往包含大量视觉设计细节：导航栏、卡片模块、渐变背景、按钮样式、信息层级以及复杂的页面布局。对于模型而言，这不仅是在识别图片中的文字，更是在理解整个页面背后的设计逻辑。

最终结果让我有些意外。

首先是页面结构的还原度。

仅凭两张截图，M3 对首页整体布局的复刻已经达到了极高的水平。导航栏、Hero 区域、功能介绍模块以及各个内容板块之间的层级关系都被准确识别出来，页面整体结构与原网页几乎保持一致。

如果只从宏观布局来看，几乎已经到了以假乱真的程度。剩下的差异主要集中在一些字体间距、元素对齐方式等细节层面。但就是把这些不一样的局部画面单独截图出来，你都得回忆一下，MiniMax 那个正版的官网画面是不是就长这样。

更有意思的是，M3 并没有机械地 “照抄截图”。

由于测试时我只提供了首页部分内容，理论上模型无法得知页面下半部分应该如何设计。但在实际生成过程中，M3 并没有简单地留下空白，而是主动分析了官网整体的视觉风格和配色特点，自行为后续页面补充了若干风格一致的内容模块。虽然这些内容并不完全对应真实官网，但无论是配色方案还是设计语言，都与原页面保持了高度一致，整体看起来并不会让人产生明显的割裂感。

**这一点其实非常重要。因为它说明模型并不仅仅是在做 OCR 或者截图复刻，而是在尝试理解页面背后的设计规律，并利用这种理解完成合理推断。**

除了视觉层面的还原之外，M3 对交互元素的识别也给我留下了不错的印象。

在生成结果中，模型正确识别出了导航栏、按钮等交互式组件，并为这些元素赋予了实际功能，例如导航栏中的菜单项可以直接跳转到对应内容区域，按钮组件也被正确实现为可点击元素。

更进一步，M3 还主动为页面补充了交互动效。当鼠标悬停在按钮上时，页面会出现过渡动画与视觉反馈。这些效果并没有出现在我的提示词中，而是模型根据现代 Web 产品的设计习惯自行加入的细节。

综合来说，M3 展现出了相当强的竞争力。它不仅能够理解网页截图中的结构信息，还能识别交互逻辑、推断缺失内容，并最终生成一个能够运行、能够交互、视觉风格高度一致的前端页面。

当然，它并非没有不足。页面中仍然存在一些排版细节上的偏差，但考虑到整个过程几乎完全由模型自主完成，并且输入仅仅是两张截图，这样的结果已经远超最初的预期。

## **价格也是生产力**

价格是大模型竞争中最现实的话题。过去一年，AI 行业几乎经历了一轮全面价格战，DeepSeek 用极低的 API 成本掀翻市场，OpenAI、Anthropic 和 Google 持续提升模型能力的同时也在不断调整定价策略。

从官方定位来看，M3 主打的是 Frontier Coding、Agent、多模态与百万级上下文能力。这首先决定了它的竞争对手，不是那些用于智能客服、会议纪要的中端模型，而是当前行业最前沿的一批旗舰模型，比如 Claude Opus 4.8、GPT-5.5、Gemini 2.5 Pro、GLM-5.2 以及 DeepSeek V4-Pro 等。

直接看价格，目前 Claude Opus 4.8 的 API 价格为输入 5 美元/百万 Token、输出 25 美元/百万 Token。GPT-5.5 为输入 5 美元、输出 30 美元。DeepSeek V4-Pro 在最新降价后为输入 0.435 美元、输出 0.87 美元。相比之下，MiniMax M3 官方价格为输入 0.6 美元、输出 2.4 美元。

如果以 Claude Opus 4.8 为基准，M3 的输入成本仅约为其 12%，输出成本不到 10%，即便面对 OpenAI 最新的 GPT-5.5，M3 的调用成本也只有其十分之一左右。换句话说，在同样消耗 100 万输入 Token 和 100 万输出 Token 的情况下，使用 GPT-5.5 需要 35 美元，使用 Claude Opus 4.8 需要 30 美元，而 M3 仅需 3 美元。

对于用量不大的普通用户来说，这种差异尚不明显，但如果你是已经习惯了每天靠大量 Agent 处理长文档、批量生成代码或者构建 AI 应用的开发者，成本差距则会被迅速放大。**假设一个项目每月消耗 1000 万输入 Token 和 1000 万输出 Token，使用 Claude Opus 4.7 的成本约为 300 美元，而使用 M3 仅需 30 美元左右。在保持接近旗舰模型能力的前提下，十倍左右的成本优势已经足以影响技术选型。**

当然，价格从来不能脱离能力讨论。

如果 M3 只有廉价可圈可点，那么这样的比较并没有意义。但有意思的是，在 MiniMax 公布的多项评测中，M3 瞄准的正是 Claude Opus 4.7、GPT-5.5 和 Gemini 旗舰模型所在的竞争区间。在 SWE-Bench Pro 等代码能力测试中，M3 已经超过 GPT-5.5 与 Gemini 旗舰模型，接近 Claude Opus 4.7，在长任务 Agent 场景下，官方展示的论文复现和 CUDA 优化案例甚至能够持续自主运行十几个小时以上。

更关键的是，M3 并非依靠阉割能力来换取低价格。如前所述，这份价格背后是 100 万 Token 上下文窗口、原生多模态架构以及 Agent 工作流能力，而 Claude、GPT 和 Gemini 恰恰也是沿着同样的方向演进。换句话说，M3 试图参与竞争的并不是 “便宜模型市场”，而是最昂贵、也是技术含量最高的旗舰模型市场。

因此，如果只看绝对价格，DeepSeek V4-Pro 仍然是目前最激进的价格屠夫。但如果同时考虑 Coding、Agent、多模态和超长上下文这些旗舰能力，那么 M3 可能是目前整个市场里最具冲击力的性价比选手之一。

## **MiniMax Code 的野心**

几项测试下来，MiniMax M3 给我的感受是，它已经可以位列国产模型里最值得关注的 Coding / Agentic 底座模型之一，尤其在长任务、长上下文、多模态输入和代码交付方面，展现出了很强的竞争力。

注意底座模型这个定位，此前城头变幻大王旗的各种 Benchmark 一度让性能水平成为衡量大模型的唯一角度。但是当我们讨论 Agent，讨论落地，更现实的维度是可用性。MiniMax M3 看起来无意再去挑战 “最强模型” 的地位，而是在尝试成为 Agent 时代最具性价比的基础设施。

这是一条更清晰的路径。随着 Claude Code、Codex 等 Agent 产品逐渐成为开发者的主要入口，模型越来越回归其原本的角色，即一种底层能力。对于开发者而言，一个模型是否能完成长任务、调用工具、理解图像并控制成本，远比单纯跑分更重要。

从这个角度看，MiniMax 的策略相当清晰。M3 在长上下文、多模态和 Coding 能力上稳稳跻身第一梯队，同时又以远低于 GPT、Claude 的价格，将这些能力带到更多真实工作流之中。

**真实工作流，这也是 MiniMax Code 此刻问世的原因。**

卖 Token 的商业模式昙花一现，事实是开发者用脚投票的时候毫不犹豫，API 供应商越来越容易被替代。在这种情况下，模型能力领先 3 个月，不代表就有 3 个月的商业优势。这迫使模型厂商追问，为什么要把最有议价权的入口拱手让人？

此外今天生产级的 Agent，已经是一种高度集成的系统工程能力。一个复杂任务的交付水平，只有部分取决于模型，还有部分取决于 Agent Runtime。如果找对测评角度，每家都有 “SOTA” 模型，那么执行层的争夺将成为新的竞争焦点之一。

**所以 MiniMax Code 是一个写代码的软件吗？**

这仍然是 IDE 的视角。它实际上是模型、代码库上下文、工具调用、执行环境、工作流编排，所有决定 Agent 最终效果的东西都在这里了。有了这些，MiniMax 才有了争夺开发者工作流入口的资格。

本文来源：雷峰网

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

### 相关股票

- [00100.HK](https://longbridge.com/zh-CN/quote/00100.HK.md)
- [OpenAI.NA](https://longbridge.com/zh-CN/quote/OpenAI.NA.md)
- [GOOG.US](https://longbridge.com/zh-CN/quote/GOOG.US.md)
- [GOOGL.US](https://longbridge.com/zh-CN/quote/GOOGL.US.md)

## 相关资讯与研究

- [Talk AI｜智谱会是下一个 MiniMax 吗？](https://longbridge.com/zh-CN/news/291410446.md)
- [【IPO 追踪】股价较高点跌 6 成！MiniMaxAI 稀缺估值神话破灭？](https://longbridge.com/zh-CN/news/290561664.md)
- [魏炜：什么是 AI 原生企业？](https://longbridge.com/zh-CN/news/291082328.md)
- [“词元盗用” 正在成为 AI 商业化面临的新风险](https://longbridge.com/zh-CN/news/291085302.md)
- [这届 Agent，全是草台班子：到底什么 Agent 在产生价值？](https://longbridge.com/zh-CN/news/291076840.md)