--- title: "MiniMax 发布 M2.5 模型:1 美元运行 1 小时,价格仅为 GPT-5 的 1/20,性能比肩 Claude Opus" type: "News" locale: "zh-CN" url: "https://longbridge.com/zh-CN/news/275838132.md" description: "M2.5 模型实现性能与成本的双重突破。价格仅为 GPT-5 等主流模型的 1/10 至 1/20。性能比肩 Claude Opus,在多语言编程测试 Multi-SWE-Bench 夺冠,任务完成速度较上代提升 37%。采用原生 Agent 强化学习框架,内部已有 30% 任务由 AI 自主完成,编程场景代码生成占比达 80%。" datetime: "2026-02-13T02:14:35.000Z" locales: - [zh-CN](https://longbridge.com/zh-CN/news/275838132.md) - [en](https://longbridge.com/en/news/275838132.md) - [zh-HK](https://longbridge.com/zh-HK/news/275838132.md) --- > 支持的语言: [English](https://longbridge.com/en/news/275838132.md) | [繁體中文](https://longbridge.com/zh-HK/news/275838132.md) # MiniMax 发布 M2.5 模型:1 美元运行 1 小时,价格仅为 GPT-5 的 1/20,性能比肩 Claude Opus MiniMax 推出了其最新迭代的 M2.5 系列模型,在保持行业领先性能的同时,大幅降低了推理成本,试图解决复杂 Agent 应用在经济上不可行的痛点,并宣称其在编程、工具调用及办公场景中已达到或刷新了行业 SOTA(当前最佳)水平。 2 月 13 日,MiniMax 公布的数据显示,M2.5 展现了显著的价格优势。在每秒输出 50 个 token 的版本下,其价格仅为 Claude Opus、Gemini 3 Pro 以及 GPT-5 等主流模型的 1/10 至 1/20。 > **在每秒输出 100 个 token 的高速运行环境下,M2.5 连续工作一小时的成本仅需 1 美元,若降至 50 token/秒,成本进一步下探至 0.3 美元**。这意味着 1 万美元的预算足以支撑 4 个 Agent 连续工作一年,极大地降低了构建和运营大规模 Agent 集群的门槛。 在性能维度,**M2.5 在核心编程测试中表现强劲,并在多语言任务 Multi-SWE-Bench 上取得第一,整体水平比肩 Claude Opus 系列。**同时,**模型优化了对复杂任务的拆解能力**,在 SWE-Bench Verified 测试中,**完成任务的速度较上一代 M2.1 提升了 37%**,端到端运行时间缩短至 22.8 分钟,**与 Claude Opus 4.6 持平**。 目前,MiniMax 内部业务已率先验证了该模型的能力。数据显示,**其内部 30% 的整体任务已由 M2.5 自主完成,覆盖研发、产品、销售等核心职能**。特别是在编程场景中,M2.5 生成的代码已占据新提交代码的 80%,显示出该模型在真实生产环境中的高渗透率和可用性。 ## 击穿成本底线:无限运行 Agent 的经济可行性 M2.5 的设计初衷是消除运行复杂 Agent 的成本约束。MiniMax 通过优化推理速度和 token 效率实现了这一目标。模型提供 100 TPS(每秒传输事务处理量)的推理速度,约为当前主流模型的两倍。 除了单纯的算力成本降低,M2.5 通过更高效的任务拆解和决策逻辑,减少了完成任务所需的 token 总量。 在 SWE-Bench Verified 评测中,**M2.5 平均每个任务消耗 3.52M token,低于 M2.1 的 3.72M。** 速度与效率的双重提升,使得企业在经济上几乎可以无限制地构建和运营 Agent,将竞争焦点从成本转移至模型能力的迭代速度上。 ## 编程能力进阶:像架构师一样思考与构建 在编程领域,M2.5 不仅关注代码生成,更强调系统设计能力。模型演化出了原生的 Spec(规格说明书)行为,能够以架构师视角在编码前主动拆解功能、结构和 UI 设计。 该模型在超过 10 种编程语言(包括 GO、C++、Rust、Python 等)和数十万个真实环境中进行了训练。 **测试显示,M2.5 能胜任从系统设计(0-1)、开发(1-10)到功能迭代(10-90)及最终代码审查(90-100)的全流程。** 为了验证其在不同开发环境下的泛化性,MiniMax 在 Droid 和 OpenCode 等编程脚手架上进行了测试。 **结果显示,M2.5 在 Droid 上的通过率为 79.7,在 OpenCode 上为 76.1,均优于上一代模型及 Claude Opus 4.6。** **** ## 复杂任务处理:更高效的搜索与专业交付 在搜索和工具调用方面,**M2.5 展示了更高的决策成熟度,不再单纯追求 “做对”,而是寻求以更精简的路径解决问题。** 在 BrowseComp、Wide Search 和 RISE 等多项任务中,M2.5 相较于前代节省了约 20% 的轮次消耗,以更优的 token 效率逼近结果。 针对办公场景,MiniMax 通过与金融、法律等领域资深从业者合作,将行业隐性知识融入模型训练。 在内部构建的 Cowork Agent 评测框架(GDPval-MM)中,M2.5 在与主流模型的两两对比中取得了 59.0% 的平均胜率,能够输出符合行业标准的 Word 研报、PPT 及复杂的 Excel 财务模型,而非简单的文本生成。 ## 技术底座:原生 Agent RL 框架驱动线性提升 M2.5 性能提升的核心驱动力来自于大规模强化学习(RL)。 MiniMax 采用了名为 Forge 的原生 Agent RL 框架,通过引入中间层解耦了底层训推引擎与 Agent,支持任意脚手架的接入。 在算法层面,MiniMax 沿用了 CISPO 算法以保障 MoE 模型在大规模训练中的稳定性,并针对 Agent 长上下文带来的信用分配难题,引入了过程奖励机制(Process Reward)。 此外,**工程团队优化了异步调度策略和树状合并训练样本策略,实现了约 40 倍的训练加速**,验证了模型能力随算力和任务数增加呈现近线性提升的趋势。 目前,M2.5 已在 MiniMax Agent、API 及 Coding Plan 中全量上线,其模型权重也将在 HuggingFace 开源,支持本地部署。 ### 相关股票 - [MINIMAX-WP (00100.HK)](https://longbridge.com/zh-CN/quote/00100.HK.md) ## 相关资讯与研究 - [当模型开始长出平台:MiniMax 的转身时刻](https://longbridge.com/zh-CN/news/277453390.md) - [MiniMax 电话会:围绕 “全模态” 与 “高质量”,告别单纯 “卷模型”,向 AI 平台生态演进](https://longbridge.com/zh-CN/news/277476273.md) - [国信证券:维持 MINIMAX-WP“优于大市” 评级 模型能力提升推动业务阶梯式增长](https://longbridge.com/zh-CN/news/277862185.md) - [2500 亿市值大模型,IPO 后首份财报来了](https://longbridge.com/zh-CN/news/277602996.md) - [国泰海通证券:维持 MINIMAX-WP“增持” 评级 技术迭代叠加成本优势](https://longbridge.com/zh-CN/news/276810608.md)