作者：Jacob Zhao @IOSG
人工智能正從以統計學習為主、主要關注 “模式擬合” 的階段，轉向以 “結構化推理” 為中心的能力系統，後訓練的重要性迅速增加。DeepSeek-R1 的出現標誌着大模型時代強化學習的範式轉變，形成了行業共識：預訓練為構建通用模型提供基礎；強化學習不再僅僅是價值對齊工具，而是被證明能夠系統性地提高推理鏈和複雜決策能力的質量，逐漸演變為持續提升智能水平的技術路徑。
<img src="https://imageproxy.pbkrs.com/https://img.jinse.cn/7423052_image3.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" alt="" width="600" height="462" original-src="https://imageproxy.pbkrs.com/https://img.jinse.cn/7423052_image3.png"/>
<h2>強化學習技術的全景視圖：架構、框架和應用</h2>
<h3>強化學習的系統架構和核心要素</h3>
強化學習（RL）通過 “環境交互—獎勵反饋—策略更新” 驅動模型自主提升決策能力。其核心結構可以視為由狀態、動作、獎勵和策略組成的反饋循環。一個完整的 RL 系統通常包括三個組件：策略（策略網絡）、回放（經驗採樣）和學習者（策略更新器）。策略與環境交互生成軌跡，學習者根據獎勵信號更新策略，從而形成一個持續迭代和優化的學習過程：** 策略網絡：** 從環境狀態生成動作，是系統決策的核心。在訓練過程中，需要集中反向傳播以保持一致性；在推理過程中，可以分佈到不同節點進行並行執行。回放（經驗採樣）：節點根據策略與環境交互，生成狀態、動作和獎勵等軌跡。這個過程高度並行，通信需求極少，對硬件差異不敏感，因此是去中心化環境中最適合擴展的組件。學習者：聚合所有回放軌跡並執行策略梯度更新。它是對計算能力和帶寬要求最高的模塊，因此通常以集中或輕度集中方式部署，以確保收斂穩定性。強化學習階段框架（RLHF → RLAIF → PRM → GRPO）強化學習一般可以分為五個階段，整體過程如下：# 數據生成階段（策略探索）在給定輸入提示的情況下，策略模型πθ生成多個候選推理鏈或完整軌跡，為後續的偏好評估和獎勵建模提供樣本基礎，並確定策略探索的廣度。# 偏好反饋階段（RLHF / RLAIF）RLHF（來自人類反饋的強化學習）這一階段利用多個候選答案、人類偏好標註、訓練獎勵模型（RM）和 PPO 優化策略，使模型輸出更符合人類價值觀。這是 GPT-3.5 向 GPT-4 過渡的關鍵步驟。RLAIF（來自 AI 反饋的強化學習）這一階段用 AI 評判者或憲法規則替代人工標註，實現偏好獲取的自動化，顯著降低成本，並實現可擴展性。它已成為 Anthropic、OpenAI 和 DeepSeek 等公司的標準特徵，主流對齊範式等。
# 獎勵建模階段
基於偏好的輸入獎勵模型學習將輸出映射到獎勵。RM 教會模型 “什麼是正確答案”，PRM 教會模型 “如何正確推理”。
<ul>
<li>RM（獎勵模型）用於評估最終答案的質量，僅對輸出進行評分：</li>
<li>過程獎勵模型（PRM）不再僅僅評估最終答案，而是對每一步推理、每個標記和每個邏輯段進行評分。它也是 OpenAI o1 和 DeepSeek-R1 的關鍵技術，實質上是 “教會模型如何思考”。</li>
</ul>
# 獎勵驗證階段
在獎勵信號生成和使用過程中引入 “可驗證約束”，確保獎勵源於可重複的規則、事實或共識，從而降低獎勵操控和偏見風險，提高開放環境中的可審計性和可擴展性。
# 策略優化階段
在獎勵模型信號的指導下更新策略參數θ，以獲得具有更強推理能力、更高安全性和更穩定行為模式的策略πθ′。
主流優化方法包括：PPO（近端策略優化）：RLHF 中的傳統優化器，以其穩定性著稱，但在複雜推理任務中常面臨收斂緩慢和穩定性不足等限制。GRPO（組相對策略優化）：DeepSeek-R1 的核心創新，通過建模候選答案組內的優勢分佈來估計期望值，而不是簡單地對其進行排名。這種方法保留了獎勵幅度信息，更適合推理鏈優化，並具有更穩定的訓練過程。被認為是 PPO 之後深度推理場景的重要強化學習優化框架。
DPO（直接偏好優化）：一種不使用強化學習的後訓練方法：它不生成軌跡或構建獎勵模型，而是直接優化偏好對。它成本低且穩定，因此廣泛用於 Llama 和 Gemma 等開源模型的對齊，但並未提高推理能力。
# 新策略部署階段
優化後的模型表現出：更強的推理鏈生成能力（系統-2 推理）、與人類或 AI 偏好更一致的行為、較低的幻覺率和更高的安全性。該模型通過持續迭代不斷學習偏好，優化過程，提高決策質量，形成閉環。
<img src="https://imageproxy.pbkrs.com/https://img.jinse.cn/7423055_image3.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" alt="" width="600" height="391" original-src="https://imageproxy.pbkrs.com/https://img.jinse.cn/7423055_image3.png"/>
<h3>強化學習的五大工業應用類別</h3>
強化學習已經從早期的博弈論智能演變為跨行業自主決策的核心框架。其應用場景可以根據技術成熟度和行業實施分為五大類，每一類都推動了各自領域的關鍵突破。遊戲與策略系統：這是強化學習最早得到驗證的方向。在 “完美信息 + 明確獎勵” 的環境中，如 AlphaGo、AlphaZero、AlphaStar 和 OpenAI Five，強化學習展示了與人類專家相當甚至超越的決策智能，為現代強化學習算法奠定了基礎。具身人工智能：通過持續控制、動態建模和環境交互，強化學習使機器人能夠學習操作、運動控制和跨模態任務（如 RT-2 和 RT-X）。它正迅速朝工業化邁進，是機器人在現實世界應用的關鍵技術路線。數字推理（LLM 系統-2）：強化學習 + PRM 推動大型模型從 “語言模仿” 到 “結構推理”。代表性成果包括 DeepSeek-R1、OpenAI o1/o3、Anthropic Claude 和 AlphaGeometry。其本質在於在推理鏈層面優化獎勵，而不僅僅是評估最終答案。自動化科學發現與數學優化：強化學習在無標籤、複雜獎勵和廣闊搜索空間中尋求最優結構或策略。AlphaTensor、AlphaDev 和 Fusion RL 等基礎性突破展示了超越人類直覺的探索能力。經濟決策與交易：強化學習用於策略優化、高維風險控制和自適應交易系統生成。與傳統量化模型相比，它能夠在不確定環境中持續學習，是智能金融的重要組成部分。強化學習與 Web3 的自然匹配：強化學習（RL）與 Web3 之間的高度兼容性源於兩者本質上都是 “激勵驅動系統”。強化學習依賴獎勵信號來優化策略，而區塊鏈依賴經濟激勵來協調參與者行為，使得它們在機制層面上自然一致。強化學習的核心要求——大規模異構推廣、獎勵分配和真實性驗證——正是 Web3 的結構優勢所在。# 推理與訓練的解耦強化學習的訓練過程可以清晰地分為兩個階段：推廣（探索性採樣）：模型基於當前策略生成大量數據，這是一個計算密集但通信稀疏的任務。它不需要節點之間頻繁通信，適合在全球分佈的消費級 GPU 上進行並行生成。更新（參數更新）：基於收集的數據更新模型權重，需要高帶寬的集中節點。“推理 - 訓練解耦” 自然與去中心化異構計算能力結構對齊：推廣可以外包給開放網絡，通過基於貢獻的代幣機制進行結算，而模型更新則保持集中以確保穩定性。# 可驗證性：ZK 和學習證明提供了驗證節點是否實際執行推理的手段，解決了開放網絡中的誠實問題。在編碼和數學推理等確定性任務中，驗證者只需檢查答案以確認工作量，顯著提高了去中心化強化學習系統的可信度。基於代幣反饋生產機制的激勵層，使 Web3 的代幣機制能夠直接獎勵強化學習人類反饋（RLHF）/強化學習人工反饋（RLAIF）的偏好反饋，為偏好數據生成創造了透明、可結算和無權限的激勵結構。質押和削減進一步約束反饋質量，形成比傳統眾包更高效和一致的反饋市場。# 多智能體強化學習（MARL）的潛力區塊鏈本質上是一個公開、透明且不斷演變的多智能體環境。在激勵驅動的條件下，賬户、合約和智能體不斷調整其策略，使其自然具備構建大規模 MARL 測試平台的潛力。儘管仍處於早期階段，但其公開狀態、可驗證執行和可編程激勵的特性為 MARL 的未來發展提供了根本優勢。基於上述理論框架，我們將簡要分析當前生態系統中最具代表性的項目：Prime Intellect：一種異步強化學習範式 - prime-rl Prime Intellect 致力於建立全球開放計算力市場，降低訓練門檻，促進協作去中心化訓練，並開發完整的開源超智能技術棧。其系統包括：Prime Compute（統一雲/分佈式計算力環境）、INTELLECT 模型系列（10B–100B+）、開放強化學習環境中心和大規模合成數據引擎（SYNTHETIC-1/2）。Prime Intellect 核心基礎設施組件，特別是 prime-rl 框架，旨在異步分佈式環境中，且與強化學習高度相關。其他組件包括 OpenDiLoCo 通信協議，以克服帶寬瓶頸，以及 TopLoc 驗證機制，以確保計算完整性。
# Prime Intellect 核心基礎設施組件概覽
<img src="https://imageproxy.pbkrs.com/https://img.jinse.cn/7423056_image3.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" alt="" width="600" height="461" original-src="https://imageproxy.pbkrs.com/https://img.jinse.cn/7423056_image3.png"/>
# 技術基礎：prime-rl 異步強化學習框架
prime-rl 是 Prime Intellect 的核心訓練引擎，專為大規模異步去中心化環境設計。它通過完全解耦 Actor–Learner 實現高吞吐量推理和穩定更新。Rollout Worker 和 Trainer 不再同步阻塞；節點可以隨時加入或離開，只需持續拉取最新策略並上傳生成的數據。Rollout Worker 負責模型推理和數據生成。Prime Intellect 創新性地將 vLLM 推理引擎集成到 Actor 中。vLLM 的 PagedAttention 技術和 Continuous Batching 能力使 Actor 能夠以極高的吞吐量生成推理軌跡。Learner (Trainer)：負責策略優化。Learner 異步從共享的 Experience Buffer 中拉取數據進行梯度更新，無需等待所有 Actor 完成當前批次。Coordinator (Orchestrator)：負責調度模型權重和數據流。
# prime-rl 的關鍵創新
<ul>
<li>真正的異步性：prime-rl 摒棄了傳統 PPO 的同步範式，不等待慢節點，也不需要批次對齊，使得任何數量和性能的 GPU 可以隨時訪問，為去中心化強化學習的可行性奠定基礎。FSDP2 和 MoE 的深度集成：通過 FSDP2 參數切片和 MoE 稀疏激活，prime-rl 實現了在分佈式環境中高效訓練數十億個模型。Actor 僅運行活躍的專家，顯著降低了內存和推理成本。GRPO+（組相對策略優化）：GRPO 消除了對 Critic 網絡的需求，顯著降低了計算和內存開銷。它自然適應異步環境。prime-rl 的 GRPO+ 通過穩定機制進一步確保在高延遲條件下的可靠收斂。</li>
</ul>
# INTELLECT 模型家族：去中心化強化學習技術成熟度的標誌
<ul>
<li>INTELLECT-1 (10B, 2024 年 10 月) 首次證明 OpenDiLoCo 可以在跨越三個大洲的異構網絡中高效訓練（通信比率&lt;2%，計算能力利用率 98%），突破了跨區域訓練的物理理解；</li>
<li>INTELLECT-2 (32B, 2025 年 4 月) 作為第一個無許可的強化學習模型，驗證了 prime-rl 和 GRPO+ 的性能。在多步延遲和異步環境中穩定收斂的能力使得全球開放計算能力參與的去中心化強化學習成為可能；INTELLECT-3 (106B MoE, 2025 年 11 月) 採用稀疏架構，僅激活 12B 參數，並在 512×H200 上訓練，以實現旗艦級推理性能（AIME 90.8%，GPQA 74.4%，MMLU-Pro 81.9% 等），整體性能接近甚至超過規模遠大於自身的集中式閉源模型。Prime Intellect 還構建了多個支持基礎設施組件：OpenDiLoCo 通過時間稀疏通信和量化權重差異將跨區域訓練通信減少了數百倍，使 INTELLECT-1 在三個大洲保持 98% 的利用率；TopLoc + 驗證器形成去中心化的可信執行層，激活指紋和沙箱驗證，以確保推理和獎勵數據的真實性；合成數據引擎生成大規模、高質量的推理鏈，並通過流水線並行性使 671B 模型在消費級 GPU 集羣上高效運行。這些組件為去中心化強化學習的數據生成、驗證和推理吞吐量提供了重要的工程基礎。INTELLECT 系列展示了這一技術棧能夠產生成熟的世界級模型，標誌着去中心化訓練系統從概念階段向實際應用階段的轉變。Gensyn：核心強化學習棧 RL Swarm 和 SAPO Gensyn 旨在將全球閒置計算能力聚合成一個開放、無信任且無限可擴展的 AI 訓練基礎設施。其核心包括跨設備標準化執行層、點對點協調網絡和無信任任務驗證系統，通過智能合約自動分配任務和獎勵。基於強化學習的特性，Gensyn 引入了核心機制，如 RL Swarm、SAPO 和 SkipPipe，以解耦生成、評估和更新的三個階段，通過全球異構 GPU 的 “羣體” 實現集體進化。其最終交付的不僅僅是計算能力，而是可驗證的智能。#Gensyn 棧的強化學習應用#RL Swarm：去中心化協作強化學習引擎 RL Swarm 展示了一種新穎的協作模型。它不再是簡單的任務分配，而是去中心化的 “生成 - 評估 - 更新” 循環，模擬人類的社會學習，類似於協作學習過程，形成一個無限循環：求解者：負責本地模型推理和 Rollout 生成，無縫集成異構節點。Gensyn 在本地集成了高吞吐量推理引擎（如 CodeZero），輸出完整的軌跡而不僅僅是答案。提議者：動態生成任務（數學問題、編碼問題等），支持任務多樣性和類似於課程學習的自適應難度。評估者：使用凍結的 “評判模型” 或規則評估本地 Rollout，生成本地獎勵信號。評估過程是可審計的，減少了惡意行為的機會。這三個組件共同形成了一個 P2P 強化學習組織結構，使得大規模協作學習無需集中調度。#SAPO：去中心化重構的策略優化算法 SAPO（Swarm Sampling Policy Optimization）基於 “共享 Rollout 和過濾無梯度信號樣本，而不是共享梯度” 的原則。它通過大規模去中心化 Rollout 採樣，在沒有中央協調和節點延遲差異顯著的環境中實現穩定收斂，將接收到的 Rollout 視為本地生成。與依賴於 Critic 網絡且計算成本高的 PPO 相比，或基於組內優勢估計的 GRPO，SAPO 使消費級 GPU 能夠以極低的帶寬有效參與大規模強化學習優化。#SAPO：去中心化重構的策略優化算法 SAPO（Swarm Sampling Policy Optimization）基於 “共享 Rollout 和過濾無梯度信號樣本，而不是共享梯度” 的原則。#Nous 研究組件概述#模型層：Hermes 和推理能力的演變 Hermes 系列是 Nous Research 的主要用户界面模型。其演變清晰地展示了行業從傳統的 SFT/DPO 對齊向推理強化學習（Reasoning RL）的遷移路徑：
<ul>
<li>#Echo — 強化學習訓練架構 Echo 是 Gradient 的強化學習框架。其核心設計理念是解耦強化學習中的訓練、推理和數據（獎勵）路徑，使 Rollout 生成、策略優化和獎勵評估能夠在異構環境中獨立擴展和調度。它在由推理和訓練節點組成的異構網絡中協同運行，在廣域異構環境中通過輕量級同步機制保持訓練穩定性。這有效緩解了傳統 DeepSpeed RLHF/VERL 中混合推理和訓練導致的 SPMD 故障和 GPU 利用率瓶頸。</li>
</ul>
</li>
</ul>

這篇由 Jacob Zhao 撰寫的文章討論了人工智能從統計學習到結構化推理的演變，強調了強化學習的作用。文章突出了 DeepSeek-R1 的出現，標誌着強化學習的範式轉變，並概述了其架構和應用。文章詳細介紹了強化學習的各個階段，包括策略探索、偏好反饋、獎勵建模和策略優化，並引入了新的優化方法，如 GRPO 和 DPO，展示了人工智能決策能力的進步

From Computing Power to Intelligence: A Decentralized AI Investment Map Driven by Reinforcement Learning

- 強化學習正向結構化推理系統轉變，後續訓練變得尤為重要。  
- DeepSeek-R1 推動強化學習變革，提升推理鏈及決策能力。  
- 應用覆蓋遊戲、智能決策、科學發現等五大領域。

從計算能力到智能：通過強化學習推動的去中心化 AI 投資藍圖