还记得吗，AI 大神 Karpathy 曾说过，「英文是最热门的编程语言」。
两年后的现在，这个规则彻底要被颠覆了。
从今天起，中文很有可能成为全球最热门的编程语言！
<img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/1b623655-5a1e-40f8-a36b-99e62561e02d.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="124" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/1b623655-5a1e-40f8-a36b-99e62561e02d.png"/>
就在刚刚，Kimi 发布了 k1.5 多模态思考模型。这是继去年 11 月他们发布 k0-math 数学模型，12 月发布 k1 视觉思考模型之后，连续第三个月带来 k 系列强化学习模型的重磅升级。
Kimi k1.5 的性能，如今已经全面追上现役全球最强模型——OpenAI o1 满血版。
<img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/9b5298ef-c3aa-4051-b1d1-31da8cb13c95.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="576" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/9b5298ef-c3aa-4051-b1d1-31da8cb13c95.png"/>
具体来说，在 Long CoT 模式下，Kimi k1.5 的数学、代码、多模态推理能力，达到了长思考 SOTA 模型 OpenAI o1 满血版的水平。这也是全球范围内，首次有 OpenAI 之外的公司达到。
而在 Short CoT 模式下，Kimi k1.5 大幅领先 GPT-4o 和 Claude 3.5 的水平。
<img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/fd72681a-f5f2-4c19-bc5a-8f83c510b908.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="892" height="988" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/fd72681a-f5f2-4c19-bc5a-8f83c510b908.png"/>
短 COT 模式下，数学成绩显著高于 GPT-4o 和 Claude Sonnet 3.5
同时，月之暗面也大方公开了这个满血版 o1 水平的强化学习模型的训练技术细节。
<section>
<h2>简单出奇迹，首创 long2short 思维链</h2>
</section>
扒开 Kimi k1.5 25 页技术报告，可以清晰看到这款模型的技术创新之处。
当前，基于下一个 token 预测的语言模型，在计算规模上的扩展，已经得到了有效证明。
但模型 Scaling 仍受限于可用的数据量，为此，Kimi 团队创新性地扩展了强化学习（RL）的应用，开辟出一条全新的路径。
它能够让 LLM 通过奖励机制进行探索性学习，从而自主扩展训练数据，从而实现计算规模有效扩展。
<img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/aa31e208-079e-4166-a780-f7ff42e34b02.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="281" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/aa31e208-079e-4166-a780-f7ff42e34b02.png"/>
论文地址：https://github.com/MoonshotAI/kimi-k1.5
以下，是 k1.5 设计和训练的四大关键要素：
1. 长上下文扩展
2. 改进的策略优化
3. 简化框架
4. 多模态
接下来，我们一起深挖一下这些技术细节吧。
<section>
<h2>短 CoT 模型的上下文压缩</h2>
</section>
与业界普遍采用复杂技术做法不同，Kimi 团队选择了一条更为优雅的技术路线——回归第一性原理。
他们证明了，无需依赖蒙特卡洛树搜索、价值函数、过程奖励模型，也能让模型取得卓越的性能。
如上所见，我们已经看到了 Kimi k1.5 在多个权威基准测试中，取得了显著的突破。
那么，long2short 是如何被实现的呢？
Kimi 团队认为，可以将长 CoT 模型的推理先验转移到短 CoT 模型中，从而即使在有限的测试 Token 预算下也能提高性能。
模型合并
将长 CoT 模型和短 CoT 模型进行合并，除了可以在泛化性上起到积极的作用，还可以提高 Token 的使用效率。
这种方法通过简单地平均两个模型的权重，将一个长 CoT 模型与一个短模型结合，得到一个新的模型，而无需进行训练。
最短筛选采样
由于模型对于同一问题生成的响应长度变化很大，因此团队设计了一种最短筛选采样方法。
也就是，先对同一问题采样 n 次，然后选择最短的正确响应进行监督微调。
DPO
利用长 CoT 模型生成多个响应样本，然后选择最短的正确解作为正样本，并将较长的响应视为负样本，包括正确但长度是选定正样本 1.5 倍的较长响应。
这些正负样本对数据集形成了用于 DPO 训练的成对偏好数据。
long2short 强化学习
在标准强化学习训练阶段之后，团队选择了一个在性能与 Token 使用效率之间提供最佳平衡的模型作为基础模型，并进行单独的 long2short 强化学习训练阶段。
在第二阶段中，他们应用了「长度惩罚」，并显著减少了最大展开长度，以进一步惩罚可能正确但超出期望长度的响应。
<section>
<h2>强化学习基础设施</h2>
</section>
Kimi k1.5 系统设计了一种迭代同步的 RL 框架，旨在通过持续的学习与适应来增强模型的推理能力。
该系统的一项关键创新是引入了部分回滚（Partial Rollout）技术，用于减少计算开销并优化复杂推理轨迹的处理。
如下图 3a 所示，RL 训练系统通过迭代同步的方法运行，每次迭代包含回滚阶段和训练阶段。
在回滚阶段，由中央主控协调的回滚工作节点通过与模型交互生成回滚轨迹，这些轨迹是模型对各种输入生成的响应序列。在随后的训练阶段，训练工作节点访问这些经验以更新模型的权重。
这个循环过程使模型能够持续从其行为中学习，随着时间的推移调整其策略以提升性能。
<img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/e689cefe-80a1-40d6-a3f9-9bf453951f93.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="894" height="679" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/e689cefe-80a1-40d6-a3f9-9bf453951f93.png"/>
长 CoT 强化学习的部分回滚技术
部分回滚（Partial Rollouts）能够通过同时管理长轨迹和短轨迹的回滚，有效地解决处理长 CoT 特性时的资源分配和效率挑战，进而实现长上下文强化学习（RL）训练的规模扩展。
该技术设定了一个固定的输出 Token 预算，对每个回滚轨迹的长度进行限制。如果某个轨迹在回滚阶段超过了 Token 限制，其未完成部分被保存到重放缓冲区，并在后续迭代中继续处理。
此外，由于回滚工作节点是异步运行的，当某些节点处理长轨迹时，其他节点可以独立地处理新的短回滚任务。
如图 3b 所示，部分回滚系统通过在多次迭代中将长响应分解为多个片段来运行，显著降低了计算开销——系统无需一次性处理整个响应，而是逐步处理和存储片段，从而在保持快速迭代时间的同时生成更长的响应。
部分回滚的实现还提供了重复检测功能。系统能够识别生成内容中的重复序列并提前终止，从而减少不必要的计算，同时保持输出质量。
<img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/664e03a1-4d24-40ab-8dbe-14a8b571ce52.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="622" height="405" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/664e03a1-4d24-40ab-8dbe-14a8b571ce52.png"/>
训练与推理的混合部署
研究者提出了一种用于训练和推理任务的混合部署策略，该策略利用 Kubernetes 的 Sidecar 容器共享所有可用 GPU，将两种任务协同部署在同一个 Pod 中。这一策略的主要优势包括：
<ol>
<li>
促进了资源的高效共享与管理，避免了训练节点因等待推理节点而处于空闲状态（当两者部署在不同节点时）
</li>
<li>
通过使用不同的部署镜像，训练和推理可以独立迭代，从而实现更好的性能
</li>
<li>
架构并不限于 vLLM，还可以方便地集成其他框架
</li>
</ol>
如图 4 所示，研究者在 Megatron 和 vLLM 的基础上实现了这一混合部署框架，从训练到推理阶段不到一分钟的转换时间，反向转换则约为十秒钟。
<img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/80ab6a9c-8a69-4b47-ad4a-48998932519f.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="649" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/80ab6a9c-8a69-4b47-ad4a-48998932519f.png"/>
<section>
<h2>实验结果</h2>
</section>
由于 k1.5 是一个多模态模型，研究者对不同模态的各种基准进行了综合评估。基准测试主要包括以下三类：
<ul>
<li>
Text Benchmark：MMLU, IF-Eval, CLUEWSC, C-EVAL
</li>
<li>
Reasoning Benchmark：HumanEval-Mul, LiveCodeBench, Codeforces, AIME 2024, MATH500
</li>
<li>
Vision Benchmark：MMMU, MATH-Vision, MathVista
</li>
</ul>
k1.5 长 CoT 模型
Kimi 的 k1.5 长 CoT 模型通过长 CoT 监督微调和视觉 - 文本联合强化学习，在长距离推理上获得了显著的增强。
评估显示，模型在长上下文中的推理、理解和信息综合能力方面有了显著提升，标志着多模态 AI 能力的显著进步。
<img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/7a7633ab-4b0d-44d4-923a-9b0c5aeac269.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="391" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/7a7633ab-4b0d-44d4-923a-9b0c5aeac269.png"/>
k1.5 短 CoT 模型
Kimi 的 k1.5 短 CoT 模型集成了多种技术，包括传统监督微调方法、强化学习以及长到短知识蒸馏。
如表 3 所示，k1.5 短 CoT 模型在覆盖多个领域的多项任务中表现出与领先的开源和专有模型相当或更优的性能。
<img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/59d9aa9b-0316-4446-b746-cae4de89c50b.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="435" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/59d9aa9b-0316-4446-b746-cae4de89c50b.png"/>
长上下文 Scaling
研究者使用一个中型模型，来研究结合 LLM 的强化学习的扩展特性。如图 5 所示，随着训练的进行，模型响应长度和性能准确率同时增加。
尤其值得注意的是，在更具挑战性的基准测试中，响应长度的增长更为陡峭，这表明模型在处理复杂问题时学会生成更详尽的解决方案。
<img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/7c97ab4e-0839-4513-9e17-7819b61ae405.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="847" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/7c97ab4e-0839-4513-9e17-7819b61ae405.png"/>
图 6 表明，模型输出的上下文长度与其问题解决能力之间存在显著的相关性。
最终，k1.5 模型的运行能支持 128k 上下文长度，并在困难的推理基准测试中持续取得改进。
<img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/0006d956-cea7-4ffa-8621-f8ab8490b874.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="547" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/0006d956-cea7-4ffa-8621-f8ab8490b874.png"/>
由长到短
研究者重点研究了 long2short 问题中的 Token 效率，特别是长 CoT 模型如何提升短模型性能。
如图 7 所示，提出的 long2short 强化学习算法在 Token 效率方面优于其他方法（如 DPO 和模型合并）。
值得注意的是，k1.5 系列的所有模型（用橙色标记）在 Token 效率上都优于其他模型（用蓝色标记）。
<img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/8ce77b48-3ab8-4d63-8ad8-b97b440999e6.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="451" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/8ce77b48-3ab8-4d63-8ad8-b97b440999e6.png"/>
<section>
<h2>思考模型，进入冲刺</h2>
</section>
可以看到，在多模态推理技术路线上，Kimi 又进了一步。
从 2024 年 11 月，他们首次推出的数学推理模型 K0-math 就展现出了在数学领域的领先性。
紧接着一个月后，K1 视觉思考模型诞生，不仅继承了 K0-math 的数学底蕴，更突破性地解锁了视觉理解能力。
这意味着，K1 不仅「会算」，还能「会看」——通过理解图片中的信息，并通过逐步推理得出答案。
如今，k1.5 又继续向前推进了一步，在多个领域数理化、代码、通用中，刷新了 SOTA，甚至能够媲美世界顶尖模型。
<img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/01c0cec9-4cba-46ca-8bff-8b9932d51a44.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="576" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/01c0cec9-4cba-46ca-8bff-8b9932d51a44.png"/>
下一步，Kimi 依旧会发力多模态推理，继续迭代出能够在更多模态、更多领域、具备更强通用能力的 Kn 系列的模型。
k1.5 已经带来了诸多惊喜，还真是有点期待下一代模型的到来。
文章来源：新智元，原文标题：《Kimi 硬刚多模态满血版 o1，首曝训练细节！强化学习 scaling 新范式诞生》<div>风险提示及免责条款</div>
 <div>
 市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。
 </div>

商汤-WR

商汤-W

OpenAI

谷歌-C

科大讯飞

Kimi 发布了 k1.5 多模态思考模型，标志着中文编程语言的崛起。该模型在 Long CoT 模式下的数学、代码和多模态推理能力已达到 OpenAI o1 满血版的水平，并在 Short CoT 模式下显著领先于 GPT-4o 和 Claude 3.5。Kimi 团队创新性地扩展了强化学习的应用，开辟了新的路径，通过奖励机制实现自主扩展训练数据，推动计算规模的有效扩展。

- Kimi 发布了 k1.5 多模态思考模型，性能追赶 OpenAI o1 满血版。  
- 该模型在数学、代码和多模态推理能力上表现优异，首次超越 GPT-4o 和 Claude 3.5。  
- Kimi 继续推进多模态推理，期待未来模型的迭代与发展。