<div id="readability-page-1">AI 大神 Andrej Karpathy 刚刚发了一篇推文，他将训练大型语言模型 (LLM) 的过程巧妙地比作教育学生，并以教科书的结构为框架，阐述了当前 LLM 训练的现状和未来方向。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/8c11fb52-66cf-475f-8ab5-1d8483dd7f31.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="683" height="333" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/8c11fb52-66cf-475f-8ab5-1d8483dd7f31.png"/> 这可能是目前我看到过关于预训练，监督式微调，强化学习最好最通俗易懂的解释，分享给大家。 Karpathy 指出，当我们打开任何一本教科书，都会看到三种主要类型的信息： <ol> <li> 1. 背景信息 / 阐述 (Background information / exposition): 这是教科书的核心内容，用于解释各种概念和知识。学生通过阅读和学习这些内容来构建知识体系，这就像是 LLM 的预训练 (pretraining) 阶段。在预训练阶段，模型通过阅读海量的互联网文本，学习语言的规律、世界的知识，积累广泛的背景知识，为后续的学习打下基础 </li> <li> 2. 例题及解答 (Worked problems with solutions): 教科书会提供具体的例题，并详细展示专家如何解决这些问题。这些例题是示范，引导学生模仿学习。这与 LLM 的 监督式微调 (supervised finetuning) 阶段相对应。在微调阶段，模型学习人类专家提供的 “理想答案”，学习如何生成高质量、符合人类期望的回复，例如助手类应用的 “理想回答” </li> <li> 3. 练习题 (Practice problems): 教科书每章节末尾通常会设置大量的练习题，这些题目往往只提供最终答案，而不给出详细的解题步骤。练习题旨在引导学生通过 试错 (trial &amp; error) 的方式进行学习。学生需要尝试各种方法，才能找到正确的答案。卡帕西认为，这与 强化学习 (reinforcement learning) 的概念高度相似 </li> </ol> Karpathy 强调，目前我们已经让 LLM 经历了大量的 “阅读” 和 “示例学习”，也就是预训练和监督式微调，但对于 “练习题” 这一环节，也就是强化学习，我们还处于一个新兴的、尚待开发的阶段。 他认为，当我们为 LLM 创建数据集时，本质上与为它们编写教科书并无二致。为了让 LLM 真正 “学会”，我们需要像编写教科书一样，提供这三种类型的数据： 大量的背景知识 (Background information)： 对应预训练，让模型积累广泛的知识 示范性的例题 (Worked problems)： 对应监督式微调，让模型学习高质量的输出 大量的练习题 (Practice problems)： 对应强化学习，让模型在实践中学习，通过试错和反馈不断改进 <h2>写在最后</h2> 卡帕西总结道，我们已经让 LLM 经历了大量的 “阅读” 和 “学习例题”，但更重要的是，我们需要引导它们进行大量的 “实践练习”。 LLM 需要阅读，更需要实践。 只有通过大量的实践练习，才能真正提升 LLM 的能力，让它们更好地理解世界、解决问题。 风险提示及免责条款 市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。</div>

鸿合科技

有道

新东方

新东方-S

AI 专家 Andrej Karpathy 在推文中将大型语言模型 (LLM) 的训练过程比作教育学生，阐述了 LLM 训练的现状与未来。他指出，LLM 的训练可分为三个阶段：预训练阶段类似于教科书的背景信息，监督式微调阶段对应于例题及解答，而强化学习阶段则像是练习题，强调通过试错学习。

- Andrej Karpathy 比喻 LLM 训练过程为教育学生，强调三种信息类型。  
- 目前 LLM 已经历预训练和监督式微调，但强化学习仍待开发。  
- 需提供背景知识、示范例题和练习题，以提升 LLM 能力。  

Andrej Karpathy：我们需要让大模型 “上学”，强化学习才刚开始