作者：Jacob Zhao @IOSG
人工智能正从以统计学习为主、主要关注 “模式拟合” 的阶段，转向以 “结构化推理” 为中心的能力系统，后训练的重要性迅速增加。DeepSeek-R1 的出现标志着大模型时代强化学习的范式转变，形成了行业共识：预训练为构建通用模型提供基础；强化学习不再仅仅是价值对齐工具，而是被证明能够系统性地提高推理链和复杂决策能力的质量，逐渐演变为持续提升智能水平的技术路径。
<img src="https://imageproxy.pbkrs.com/https://img.jinse.cn/7423052_image3.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" alt="" width="600" height="462" original-src="https://imageproxy.pbkrs.com/https://img.jinse.cn/7423052_image3.png"/>
<h2>强化学习技术的全景视图：架构、框架和应用</h2>
<h3>强化学习的系统架构和核心要素</h3>
强化学习（RL）通过 “环境交互—奖励反馈—策略更新” 驱动模型自主提升决策能力。其核心结构可以视为由状态、动作、奖励和策略组成的反馈循环。一个完整的 RL 系统通常包括三个组件：策略（策略网络）、回放（经验采样）和学习者（策略更新器）。策略与环境交互生成轨迹，学习者根据奖励信号更新策略，从而形成一个持续迭代和优化的学习过程：** 策略网络：** 从环境状态生成动作，是系统决策的核心。在训练过程中，需要集中反向传播以保持一致性；在推理过程中，可以分布到不同节点进行并行执行。回放（经验采样）：节点根据策略与环境交互，生成状态、动作和奖励等轨迹。这个过程高度并行，通信需求极少，对硬件差异不敏感，因此是去中心化环境中最适合扩展的组件。学习者：聚合所有回放轨迹并执行策略梯度更新。它是对计算能力和带宽要求最高的模块，因此通常以集中或轻度集中方式部署，以确保收敛稳定性。强化学习阶段框架（RLHF → RLAIF → PRM → GRPO）强化学习一般可以分为五个阶段，整体过程如下：# 数据生成阶段（策略探索）在给定输入提示的情况下，策略模型πθ生成多个候选推理链或完整轨迹，为后续的偏好评估和奖励建模提供样本基础，并确定策略探索的广度。# 偏好反馈阶段（RLHF / RLAIF）RLHF（来自人类反馈的强化学习）这一阶段利用多个候选答案、人类偏好标注、训练奖励模型（RM）和 PPO 优化策略，使模型输出更符合人类价值观。这是 GPT-3.5 向 GPT-4 过渡的关键步骤。RLAIF（来自 AI 反馈的强化学习）这一阶段用 AI 评判者或宪法规则替代人工标注，实现偏好获取的自动化，显著降低成本，并实现可扩展性。它已成为 Anthropic、OpenAI 和 DeepSeek 等公司的标准特征，主流对齐范式等。
# 奖励建模阶段
基于偏好的输入奖励模型学习将输出映射到奖励。RM 教会模型 “什么是正确答案”，PRM 教会模型 “如何正确推理”。
<ul>
<li>RM（奖励模型）用于评估最终答案的质量，仅对输出进行评分：</li>
<li>过程奖励模型（PRM）不再仅仅评估最终答案，而是对每一步推理、每个标记和每个逻辑段进行评分。它也是 OpenAI o1 和 DeepSeek-R1 的关键技术，实质上是 “教会模型如何思考”。</li>
</ul>
# 奖励验证阶段
在奖励信号生成和使用过程中引入 “可验证约束”，确保奖励源于可重复的规则、事实或共识，从而降低奖励操控和偏见风险，提高开放环境中的可审计性和可扩展性。
# 策略优化阶段
在奖励模型信号的指导下更新策略参数θ，以获得具有更强推理能力、更高安全性和更稳定行为模式的策略πθ′。
主流优化方法包括：PPO（近端策略优化）：RLHF 中的传统优化器，以其稳定性著称，但在复杂推理任务中常面临收敛缓慢和稳定性不足等限制。GRPO（组相对策略优化）：DeepSeek-R1 的核心创新，通过建模候选答案组内的优势分布来估计期望值，而不是简单地对其进行排名。这种方法保留了奖励幅度信息，更适合推理链优化，并具有更稳定的训练过程。被认为是 PPO 之后深度推理场景的重要强化学习优化框架。
DPO（直接偏好优化）：一种不使用强化学习的后训练方法：它不生成轨迹或构建奖励模型，而是直接优化偏好对。它成本低且稳定，因此广泛用于 Llama 和 Gemma 等开源模型的对齐，但并未提高推理能力。
# 新策略部署阶段
优化后的模型表现出：更强的推理链生成能力（系统-2 推理）、与人类或 AI 偏好更一致的行为、较低的幻觉率和更高的安全性。该模型通过持续迭代不断学习偏好，优化过程，提高决策质量，形成闭环。
<img src="https://imageproxy.pbkrs.com/https://img.jinse.cn/7423055_image3.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" alt="" width="600" height="391" original-src="https://imageproxy.pbkrs.com/https://img.jinse.cn/7423055_image3.png"/>
<h3>强化学习的五大工业应用类别</h3>
强化学习已经从早期的博弈论智能演变为跨行业自主决策的核心框架。其应用场景可以根据技术成熟度和行业实施分为五大类，每一类都推动了各自领域的关键突破。游戏与策略系统：这是强化学习最早得到验证的方向。在 “完美信息 + 明确奖励” 的环境中，如 AlphaGo、AlphaZero、AlphaStar 和 OpenAI Five，强化学习展示了与人类专家相当甚至超越的决策智能，为现代强化学习算法奠定了基础。具身人工智能：通过持续控制、动态建模和环境交互，强化学习使机器人能够学习操作、运动控制和跨模态任务（如 RT-2 和 RT-X）。它正迅速朝工业化迈进，是机器人在现实世界应用的关键技术路线。数字推理（LLM 系统-2）：强化学习 + PRM 推动大型模型从 “语言模仿” 到 “结构推理”。代表性成果包括 DeepSeek-R1、OpenAI o1/o3、Anthropic Claude 和 AlphaGeometry。其本质在于在推理链层面优化奖励，而不仅仅是评估最终答案。自动化科学发现与数学优化：强化学习在无标签、复杂奖励和广阔搜索空间中寻求最优结构或策略。AlphaTensor、AlphaDev 和 Fusion RL 等基础性突破展示了超越人类直觉的探索能力。经济决策与交易：强化学习用于策略优化、高维风险控制和自适应交易系统生成。与传统量化模型相比，它能够在不确定环境中持续学习，是智能金融的重要组成部分。强化学习与 Web3 的自然匹配：强化学习（RL）与 Web3 之间的高度兼容性源于两者本质上都是 “激励驱动系统”。强化学习依赖奖励信号来优化策略，而区块链依赖经济激励来协调参与者行为，使得它们在机制层面上自然一致。强化学习的核心要求——大规模异构推广、奖励分配和真实性验证——正是 Web3 的结构优势所在。# 推理与训练的解耦强化学习的训练过程可以清晰地分为两个阶段：推广（探索性采样）：模型基于当前策略生成大量数据，这是一个计算密集但通信稀疏的任务。它不需要节点之间频繁通信，适合在全球分布的消费级 GPU 上进行并行生成。更新（参数更新）：基于收集的数据更新模型权重，需要高带宽的集中节点。“推理 - 训练解耦” 自然与去中心化异构计算能力结构对齐：推广可以外包给开放网络，通过基于贡献的代币机制进行结算，而模型更新则保持集中以确保稳定性。# 可验证性：ZK 和学习证明提供了验证节点是否实际执行推理的手段，解决了开放网络中的诚实问题。在编码和数学推理等确定性任务中，验证者只需检查答案以确认工作量，显著提高了去中心化强化学习系统的可信度。基于代币反馈生产机制的激励层，使 Web3 的代币机制能够直接奖励强化学习人类反馈（RLHF）/强化学习人工反馈（RLAIF）的偏好反馈，为偏好数据生成创造了透明、可结算和无权限的激励结构。质押和削减进一步约束反馈质量，形成比传统众包更高效和一致的反馈市场。# 多智能体强化学习（MARL）的潜力区块链本质上是一个公开、透明且不断演变的多智能体环境。在激励驱动的条件下，账户、合约和智能体不断调整其策略，使其自然具备构建大规模 MARL 测试平台的潜力。尽管仍处于早期阶段，但其公开状态、可验证执行和可编程激励的特性为 MARL 的未来发展提供了根本优势。基于上述理论框架，我们将简要分析当前生态系统中最具代表性的项目：Prime Intellect：一种异步强化学习范式 - prime-rl Prime Intellect 致力于建立全球开放计算力市场，降低训练门槛，促进协作去中心化训练，并开发完整的开源超智能技术栈。其系统包括：Prime Compute（统一云/分布式计算力环境）、INTELLECT 模型系列（10B–100B+）、开放强化学习环境中心和大规模合成数据引擎（SYNTHETIC-1/2）。Prime Intellect 核心基础设施组件，特别是 prime-rl 框架，旨在异步分布式环境中，且与强化学习高度相关。其他组件包括 OpenDiLoCo 通信协议，以克服带宽瓶颈，以及 TopLoc 验证机制，以确保计算完整性。
# Prime Intellect 核心基础设施组件概览
<img src="https://imageproxy.pbkrs.com/https://img.jinse.cn/7423056_image3.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" alt="" width="600" height="461" original-src="https://imageproxy.pbkrs.com/https://img.jinse.cn/7423056_image3.png"/>
# 技术基础：prime-rl 异步强化学习框架
prime-rl 是 Prime Intellect 的核心训练引擎，专为大规模异步去中心化环境设计。它通过完全解耦 Actor–Learner 实现高吞吐量推理和稳定更新。Rollout Worker 和 Trainer 不再同步阻塞；节点可以随时加入或离开，只需持续拉取最新策略并上传生成的数据。Rollout Worker 负责模型推理和数据生成。Prime Intellect 创新性地将 vLLM 推理引擎集成到 Actor 中。vLLM 的 PagedAttention 技术和 Continuous Batching 能力使 Actor 能够以极高的吞吐量生成推理轨迹。Learner (Trainer)：负责策略优化。Learner 异步从共享的 Experience Buffer 中拉取数据进行梯度更新，无需等待所有 Actor 完成当前批次。Coordinator (Orchestrator)：负责调度模型权重和数据流。
# prime-rl 的关键创新
<ul>
<li>真正的异步性：prime-rl 摒弃了传统 PPO 的同步范式，不等待慢节点，也不需要批次对齐，使得任何数量和性能的 GPU 可以随时访问，为去中心化强化学习的可行性奠定基础。FSDP2 和 MoE 的深度集成：通过 FSDP2 参数切片和 MoE 稀疏激活，prime-rl 实现了在分布式环境中高效训练数十亿个模型。Actor 仅运行活跃的专家，显著降低了内存和推理成本。GRPO+（组相对策略优化）：GRPO 消除了对 Critic 网络的需求，显著降低了计算和内存开销。它自然适应异步环境。prime-rl 的 GRPO+ 通过稳定机制进一步确保在高延迟条件下的可靠收敛。</li>
</ul>
# INTELLECT 模型家族：去中心化强化学习技术成熟度的标志
<ul>
<li>INTELLECT-1 (10B, 2024 年 10 月) 首次证明 OpenDiLoCo 可以在跨越三个大洲的异构网络中高效训练（通信比率&lt;2%，计算能力利用率 98%），突破了跨区域训练的物理理解；</li>
<li>INTELLECT-2 (32B, 2025 年 4 月) 作为第一个无许可的强化学习模型，验证了 prime-rl 和 GRPO+ 的性能。在多步延迟和异步环境中稳定收敛的能力使得全球开放计算能力参与的去中心化强化学习成为可能；INTELLECT-3 (106B MoE, 2025 年 11 月) 采用稀疏架构，仅激活 12B 参数，并在 512×H200 上训练，以实现旗舰级推理性能（AIME 90.8%，GPQA 74.4%，MMLU-Pro 81.9% 等），整体性能接近甚至超过规模远大于自身的集中式闭源模型。Prime Intellect 还构建了多个支持基础设施组件：OpenDiLoCo 通过时间稀疏通信和量化权重差异将跨区域训练通信减少了数百倍，使 INTELLECT-1 在三个大洲保持 98% 的利用率；TopLoc + 验证器形成去中心化的可信执行层，激活指纹和沙箱验证，以确保推理和奖励数据的真实性；合成数据引擎生成大规模、高质量的推理链，并通过流水线并行性使 671B 模型在消费级 GPU 集群上高效运行。这些组件为去中心化强化学习的数据生成、验证和推理吞吐量提供了重要的工程基础。INTELLECT 系列展示了这一技术栈能够产生成熟的世界级模型，标志着去中心化训练系统从概念阶段向实际应用阶段的转变。Gensyn：核心强化学习栈 RL Swarm 和 SAPO Gensyn 旨在将全球闲置计算能力聚合成一个开放、无信任且无限可扩展的 AI 训练基础设施。其核心包括跨设备标准化执行层、点对点协调网络和无信任任务验证系统，通过智能合约自动分配任务和奖励。基于强化学习的特性，Gensyn 引入了核心机制，如 RL Swarm、SAPO 和 SkipPipe，以解耦生成、评估和更新的三个阶段，通过全球异构 GPU 的 “群体” 实现集体进化。其最终交付的不仅仅是计算能力，而是可验证的智能。#Gensyn 栈的强化学习应用#RL Swarm：去中心化协作强化学习引擎 RL Swarm 展示了一种新颖的协作模型。它不再是简单的任务分配，而是去中心化的 “生成 - 评估 - 更新” 循环，模拟人类的社会学习，类似于协作学习过程，形成一个无限循环：求解者：负责本地模型推理和 Rollout 生成，无缝集成异构节点。Gensyn 在本地集成了高吞吐量推理引擎（如 CodeZero），输出完整的轨迹而不仅仅是答案。提议者：动态生成任务（数学问题、编码问题等），支持任务多样性和类似于课程学习的自适应难度。评估者：使用冻结的 “评判模型” 或规则评估本地 Rollout，生成本地奖励信号。评估过程是可审计的，减少了恶意行为的机会。这三个组件共同形成了一个 P2P 强化学习组织结构，使得大规模协作学习无需集中调度。#SAPO：去中心化重构的策略优化算法 SAPO（Swarm Sampling Policy Optimization）基于 “共享 Rollout 和过滤无梯度信号样本，而不是共享梯度” 的原则。它通过大规模去中心化 Rollout 采样，在没有中央协调和节点延迟差异显著的环境中实现稳定收敛，将接收到的 Rollout 视为本地生成。与依赖于 Critic 网络且计算成本高的 PPO 相比，或基于组内优势估计的 GRPO，SAPO 使消费级 GPU 能够以极低的带宽有效参与大规模强化学习优化。#SAPO：去中心化重构的策略优化算法 SAPO（Swarm Sampling Policy Optimization）基于 “共享 Rollout 和过滤无梯度信号样本，而不是共享梯度” 的原则。#Nous 研究组件概述#模型层：Hermes 和推理能力的演变 Hermes 系列是 Nous Research 的主要用户界面模型。其演变清晰地展示了行业从传统的 SFT/DPO 对齐向推理强化学习（Reasoning RL）的迁移路径：
<ul>
<li>#Echo — 强化学习训练架构 Echo 是 Gradient 的强化学习框架。其核心设计理念是解耦强化学习中的训练、推理和数据（奖励）路径，使 Rollout 生成、策略优化和奖励评估能够在异构环境中独立扩展和调度。它在由推理和训练节点组成的异构网络中协同运行，在广域异构环境中通过轻量级同步机制保持训练稳定性。这有效缓解了传统 DeepSpeed RLHF/VERL 中混合推理和训练导致的 SPMD 故障和 GPU 利用率瓶颈。</li>
</ul>
</li>
</ul>

这篇由 Jacob Zhao 撰写的文章讨论了人工智能从统计学习到结构化推理的演变，强调了强化学习的作用。文章突出了 DeepSeek-R1 的出现，标志着强化学习的范式转变，并概述了其架构和应用。文章详细介绍了强化学习的各个阶段，包括策略探索、偏好反馈、奖励建模和策略优化，并引入了新的优化方法，如 GRPO 和 DPO，展示了人工智能决策能力的进步

From Computing Power to Intelligence: A Decentralized AI Investment Map Driven by Reinforcement Learning

- 强化学习正向结构化推理系统转变，后续训练变得尤为重要。  
- DeepSeek-R1 推动强化学习变革，提升推理链及决策能力。  
- 应用覆盖游戏、智能决策、科学发现等五大领域。

从计算能力到智能：通过强化学习推动的去中心化 AI 投资蓝图