<div id="readability-page-1">AI 大神 Andrej Karpathy 剛剛發了一篇推文，他將訓練大型語言模型 (LLM) 的過程巧妙地比作教育學生，並以教科書的結構為框架，闡述了當前 LLM 訓練的現狀和未來方向。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/8c11fb52-66cf-475f-8ab5-1d8483dd7f31.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="683" height="333" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/8c11fb52-66cf-475f-8ab5-1d8483dd7f31.png"/> 這可能是目前我看到過關於預訓練，監督式微調，強化學習最好最通俗易懂的解釋，分享給大家。 Karpathy 指出，當我們打開任何一本教科書，都會看到三種主要類型的信息： <ol> <li> 1. 背景信息 / 闡述 (Background information / exposition): 這是教科書的核心內容，用於解釋各種概念和知識。學生通過閲讀和學習這些內容來構建知識體系，這就像是 LLM 的預訓練 (pretraining) 階段。在預訓練階段，模型通過閲讀海量的互聯網文本，學習語言的規律、世界的知識，積累廣泛的背景知識，為後續的學習打下基礎 </li> <li> 2. 例題及解答 (Worked problems with solutions): 教科書會提供具體的例題，並詳細展示專家如何解決這些問題。這些例題是示範，引導學生模仿學習。這與 LLM 的 監督式微調 (supervised finetuning) 階段相對應。在微調階段，模型學習人類專家提供的 “理想答案”，學習如何生成高質量、符合人類期望的回覆，例如助手類應用的 “理想回答” </li> <li> 3. 練習題 (Practice problems): 教科書每章節末尾通常會設置大量的練習題，這些題目往往只提供最終答案，而不給出詳細的解題步驟。練習題旨在引導學生通過 試錯 (trial &amp; error) 的方式進行學習。學生需要嘗試各種方法，才能找到正確的答案。卡帕西認為，這與 強化學習 (reinforcement learning) 的概念高度相似 </li> </ol> Karpathy 強調，目前我們已經讓 LLM 經歷了大量的 “閲讀” 和 “示例學習”，也就是預訓練和監督式微調，但對於 “練習題” 這一環節，也就是強化學習，我們還處於一個新興的、尚待開發的階段。 他認為，當我們為 LLM 創建數據集時，本質上與為它們編寫教科書並無二致。為了讓 LLM 真正 “學會”，我們需要像編寫教科書一樣，提供這三種類型的數據： 大量的背景知識 (Background information)： 對應預訓練，讓模型積累廣泛的知識 示範性的例題 (Worked problems)： 對應監督式微調，讓模型學習高質量的輸出 大量的練習題 (Practice problems)： 對應強化學習，讓模型在實踐中學習，通過試錯和反饋不斷改進 <h2>寫在最後</h2> 卡帕西總結道，我們已經讓 LLM 經歷了大量的 “閲讀” 和 “學習例題”，但更重要的是，我們需要引導它們進行大量的 “實踐練習”。 LLM 需要閲讀，更需要實踐。 只有通過大量的實踐練習，才能真正提升 LLM 的能力，讓它們更好地理解世界、解決問題。 風險提示及免責條款 市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。</div>

鴻合科技

有道

新東方

新東方-S

AI 專家 Andrej Karpathy 在推文中將大型語言模型 (LLM) 的訓練過程比作教育學生，闡述了 LLM 訓練的現狀與未來。他指出，LLM 的訓練可分為三個階段：預訓練階段類似於教科書的背景信息，監督式微調階段對應於例題及解答，而強化學習階段則像是練習題，強調通過試錯學習。

- Andrej Karpathy 比喻 LLM 訓練過程為教育學生，強調三種信息類型。  
- 目前 LLM 已經歷預訓練和監督式微調，但強化學習仍待開發。  
- 需提供背景知識、示範例題和練習題，以提升 LLM 能力。  

Andrej Karpathy：我們需要讓大模型 “上學”，強化學習才剛開始