---
title: "MiniMax 发布 M2.5 模型：1 美元运行 1 小时，价格仅为 GPT-5 的 1/20，性能比肩 Claude Opus"
type: "News"
locale: "zh-CN"
url: "https://longbridge.com/zh-CN/news/275838132.md"
description: "M2.5 模型实现性能与成本的双重突破。价格仅为 GPT-5 等主流模型的 1/10 至 1/20。性能比肩 Claude Opus，在多语言编程测试 Multi-SWE-Bench 夺冠，任务完成速度较上代提升 37%。采用原生 Agent 强化学习框架，内部已有 30% 任务由 AI 自主完成，编程场景代码生成占比达 80%。"
datetime: "2026-02-13T02:14:35.000Z"
locales:
  - [zh-CN](https://longbridge.com/zh-CN/news/275838132.md)
  - [en](https://longbridge.com/en/news/275838132.md)
  - [zh-HK](https://longbridge.com/zh-HK/news/275838132.md)
---

> 支持的语言: [English](https://longbridge.com/en/news/275838132.md) | [繁體中文](https://longbridge.com/zh-HK/news/275838132.md)


# MiniMax 发布 M2.5 模型：1 美元运行 1 小时，价格仅为 GPT-5 的 1/20，性能比肩 Claude Opus

MiniMax 推出了其最新迭代的 M2.5 系列模型，在保持行业领先性能的同时，大幅降低了推理成本，试图解决复杂 Agent 应用在经济上不可行的痛点，并宣称其在编程、工具调用及办公场景中已达到或刷新了行业 SOTA（当前最佳）水平。

2 月 13 日，MiniMax 公布的数据显示，M2.5 展现了显著的价格优势。在每秒输出 50 个 token 的版本下，其价格仅为 Claude Opus、Gemini 3 Pro 以及 GPT-5 等主流模型的 1/10 至 1/20。

> **在每秒输出 100 个 token 的高速运行环境下，M2.5 连续工作一小时的成本仅需 1 美元，若降至 50 token/秒，成本进一步下探至 0.3 美元**。这意味着 1 万美元的预算足以支撑 4 个 Agent 连续工作一年，极大地降低了构建和运营大规模 Agent 集群的门槛。

在性能维度，**M2.5 在核心编程测试中表现强劲，并在多语言任务 Multi-SWE-Bench 上取得第一，整体水平比肩 Claude Opus 系列。**同时，**模型优化了对复杂任务的拆解能力**，在 SWE-Bench Verified 测试中，**完成任务的速度较上一代 M2.1 提升了 37%**，端到端运行时间缩短至 22.8 分钟，**与 Claude Opus 4.6 持平**。

目前，MiniMax 内部业务已率先验证了该模型的能力。数据显示，**其内部 30% 的整体任务已由 M2.5 自主完成，覆盖研发、产品、销售等核心职能**。特别是在编程场景中，M2.5 生成的代码已占据新提交代码的 80%，显示出该模型在真实生产环境中的高渗透率和可用性。

## 击穿成本底线：无限运行 Agent 的经济可行性

M2.5 的设计初衷是消除运行复杂 Agent 的成本约束。MiniMax 通过优化推理速度和 token 效率实现了这一目标。模型提供 100 TPS（每秒传输事务处理量）的推理速度，约为当前主流模型的两倍。

除了单纯的算力成本降低，M2.5 通过更高效的任务拆解和决策逻辑，减少了完成任务所需的 token 总量。

在 SWE-Bench Verified 评测中，**M2.5 平均每个任务消耗 3.52M token，低于 M2.1 的 3.72M。**

速度与效率的双重提升，使得企业在经济上几乎可以无限制地构建和运营 Agent，将竞争焦点从成本转移至模型能力的迭代速度上。

## 编程能力进阶：像架构师一样思考与构建

在编程领域，M2.5 不仅关注代码生成，更强调系统设计能力。模型演化出了原生的 Spec（规格说明书）行为，能够以架构师视角在编码前主动拆解功能、结构和 UI 设计。

该模型在超过 10 种编程语言（包括 GO、C++、Rust、Python 等）和数十万个真实环境中进行了训练。

**测试显示，M2.5 能胜任从系统设计（0-1）、开发（1-10）到功能迭代（10-90）及最终代码审查（90-100）的全流程。**

为了验证其在不同开发环境下的泛化性，MiniMax 在 Droid 和 OpenCode 等编程脚手架上进行了测试。

**结果显示，M2.5 在 Droid 上的通过率为 79.7，在 OpenCode 上为 76.1，均优于上一代模型及 Claude Opus 4.6。**

****

## 复杂任务处理：更高效的搜索与专业交付

在搜索和工具调用方面，**M2.5 展示了更高的决策成熟度，不再单纯追求 “做对”，而是寻求以更精简的路径解决问题。**

在 BrowseComp、Wide Search 和 RISE 等多项任务中，M2.5 相较于前代节省了约 20% 的轮次消耗，以更优的 token 效率逼近结果。

针对办公场景，MiniMax 通过与金融、法律等领域资深从业者合作，将行业隐性知识融入模型训练。

在内部构建的 Cowork Agent 评测框架（GDPval-MM）中，M2.5 在与主流模型的两两对比中取得了 59.0% 的平均胜率，能够输出符合行业标准的 Word 研报、PPT 及复杂的 Excel 财务模型，而非简单的文本生成。

## 技术底座：原生 Agent RL 框架驱动线性提升

M2.5 性能提升的核心驱动力来自于大规模强化学习（RL）。

MiniMax 采用了名为 Forge 的原生 Agent RL 框架，通过引入中间层解耦了底层训推引擎与 Agent，支持任意脚手架的接入。

在算法层面，MiniMax 沿用了 CISPO 算法以保障 MoE 模型在大规模训练中的稳定性，并针对 Agent 长上下文带来的信用分配难题，引入了过程奖励机制（Process Reward）。

此外，**工程团队优化了异步调度策略和树状合并训练样本策略，实现了约 40 倍的训练加速**，验证了模型能力随算力和任务数增加呈现近线性提升的趋势。

目前，M2.5 已在 MiniMax Agent、API 及 Coding Plan 中全量上线，其模型权重也将在 HuggingFace 开源，支持本地部署。

### 相关股票

- [MINIMAX-WP (00100.HK)](https://longbridge.com/zh-CN/quote/00100.HK.md)

## 相关资讯与研究

- [当模型开始长出平台：MiniMax 的转身时刻](https://longbridge.com/zh-CN/news/277453390.md)
- [MiniMax 电话会：围绕 “全模态” 与 “高质量”，告别单纯 “卷模型”，向 AI 平台生态演进](https://longbridge.com/zh-CN/news/277476273.md)
- [国信证券：维持 MINIMAX-WP“优于大市” 评级 模型能力提升推动业务阶梯式增长](https://longbridge.com/zh-CN/news/277862185.md)
- [2500 亿市值大模型，IPO 后首份财报来了](https://longbridge.com/zh-CN/news/277602996.md)
- [国泰海通证券：维持 MINIMAX-WP“增持” 评级 技术迭代叠加成本优势](https://longbridge.com/zh-CN/news/276810608.md)