<div id="readability-page-1">苹果的研究员 Mehrdad Farajtabar 等人最近发表了一篇论文，对大型语言模型 (LLM) 的推理能力提出了尖锐的质疑，他认为，LLM 的 “推理” 能力，其实只是复杂的模式匹配，不堪一击！ <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/aca7cb9f-6efd-484c-beb1-53a3b9fa47b7.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1080" height="1044" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/aca7cb9f-6efd-484c-beb1-53a3b9fa47b7.jpeg"/> 论文作者研究了包括 Llama、Phi、Gemma、Mistral 等开源模型，以及 GPT-4o 和 o1 系列等闭源模型。需要指出的是，在 OpenAI 发布 GSM8K 的三年里，模型的性能有了显著提升，从 GPT-3 (175B) 的 35% 提升到了现在 30 亿参数模型的 85% 以上，更大的模型甚至超过了 95%。但 Farajtabar 认为，这并不能证明 LLM 的推理能力真的提高了 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/857f284a-488f-4e8d-93d7-617cca8e377b.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1080" height="601" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/857f284a-488f-4e8d-93d7-617cca8e377b.jpeg"/> 为了测试 LLM 的数学推理能力的极限，Farajtabar 和他的团队开发了一个名为 GSM-Symbolic 的新工具，它可以根据 GSM8K 测试集创建符号模板，从而能够生成大量实例并设计可控实验。他们生成了 50 个独特的 GSM-Symbolic 集合，这些集合本质上就像 GSM8K 示例，但具有不同的值和名称 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/58280df8-bcd2-426a-a2c9-678811ff6692.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1080" height="773" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/58280df8-bcd2-426a-a2c9-678811ff6692.jpeg"/> GSM8K 是 “Grade School Math 8K” 的缩写，是一个用来评估数学问题解决能力的数据集。这个数据集主要包含小学级别的数学题目（大约 8,000 道题目），通常用于训练和测试机器学习模型，特别是在自然语言处理领域的模型如何处理和解决数学问题 <h2>实验结果，令人大跌眼镜：</h2> 1.当前 GSM8K 的准确率并不可靠！ 不同模型在 GSM8K 上的表现差异巨大，例如 Llama 8B 的得分在 70% 到 80% 之间，Phi-3 的得分在 75% 到 90% 之间，等等。对于大多数模型，在 GSM-Symbolic 上的平均性能低于在 GSM8K 上的平均性能 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/0b26622f-0d48-481b-918a-61b5889cccef.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="770" height="397" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/0b26622f-0d48-481b-918a-61b5889cccef.jpeg"/> <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/629b3a60-ef9b-4693-98d2-fbe91070e926.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1080" height="516" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/629b3a60-ef9b-4693-98d2-fbe91070e926.jpeg"/> 2.所谓的 LLM 推理能力不堪一击！ LLM 对专有名词和数字的更改非常敏感，这说明它们并没有真正理解数学概念。就像一个小学生，如果我们只是更改了数学测试题中的人名，他的分数就会下降 10% 吗？显然不会 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/b41edde1-bb05-40db-b2b5-132774e0dfe3.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1080" height="518" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/b41edde1-bb05-40db-b2b5-132774e0dfe3.jpeg"/> 3.随着问题难度的增加 (M1 → Symbolic → P1 → P2)。引入了 GSM-Symbolic 的三个新变体来研究模型行为：删除一个分句（GSM-M1）、增加一个分句（GSM-P1）或增加两个分句（GSM-P2），模型的性能下降，方差上升， 这意味着模型的可靠性越来越差 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/1ec9851a-a7f4-47bf-8e4d-a74c72074736.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1042" height="912" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/1ec9851a-a7f4-47bf-8e4d-a74c72074736.jpeg"/> 4.引入 GSM-NoOp 后，模型性能断崖式下跌！ GSM-NoOp 是在 GSM-Symbolic 的基础上，添加了一个看似相关但不影响整体推理的子句。所有模型，包括 o1 模型，都表现出了显著的性能下降。这说明，即使是强大的 o1 模型，也无法真正理解数学问题的逻辑结构 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/0b61a74c-201b-4d5a-88b9-4475cd3868b0.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1060" height="1215" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/0b61a74c-201b-4d5a-88b9-4475cd3868b0.jpeg"/> 5.即使是 OpenAI 的 o1 系列模型，也无法完全避免这些问题。 o1-preview 虽然有所改进，但仍然会犯一些低级错误，例如无法理解 “现在” 和 “去年” 的区别，这可能是因为训练数据中包含了 “通货膨胀” 的模式，模型只是简单地模仿了这种模式 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/8afd735a-65f0-49b7-8da7-82521776bd82.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1060" height="645" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/8afd735a-65f0-49b7-8da7-82521776bd82.jpeg"/> Farajtabar 认为， <blockquote> LLM 的这些表现，更好地解释是复杂的模式匹配，而不是真正的逻辑推理。 即使我们增加数据、参数和计算量，或者使用更好的训练数据，也只是得到了 “更好的模式匹配器”，而不是 “更好的推理器” </blockquote> Denny Zhou (谷歌 DeepMind 的 LLM 推理团队负责人) 也参与了讨论，他指出： <blockquote> “这项工作的一个关键发现是：向 GSM8k 问题添加不相关的上下文会导致 LLM 无法解决这些问题，正如我们在 ICML 2023 年的论文 ‘大型语言模型很容易被不相关的上下文分散注意力’ 中所证明的那样。提示构建的差异在我看来仍然很有趣。” </blockquote> Yuandong Tian (Meta AI 的研究科学家总监) 也表达了他的观点： <blockquote> “核心问题是：1️⃣凭借我们的领域知识，我们可以构建权重，使 LLM 在特定问题中进行良好的推理；2️⃣然而，梯度下降可能无法学习到这样的权重；3️⃣我们仍然依赖梯度下降，因为它为许多领域带来了魔力——如果它在其他领域变得愚蠢，我们也无能为力。” </blockquote> 结论 <blockquote> 总的来说，这篇论文研究结果没有在包括 Llama、Phi、Gemma 和 Mistral 等开源模型，以及最近的 OpenAI GPT-4o 和 o1 系列等领先闭源模型在内的语言模型中，找到任何形式推理的证据。他们的行为可以用复杂的模式匹配来更好地解释——如此脆弱，以至于更改名称都会使结果改变约 10%！我们可以扩展数据、参数和计算量——或者为 Phi-4、Llama-4、GPT-5 使用更好的训练数据。但这可能只会产生 “更好的模式匹配器”，而不是 “更好的推理器” </blockquote> 本文作者：opencat，文章来源：AI 寒武纪，原文标题：《AI 推理能力大 “翻车”！苹果最新论文：LLM 只是复杂的模式匹配，而不是真正的逻辑推理》。 </div>

苹果

苹果研究员 Mehrdad Farajtabar 等人发表论文质疑大型语言模型（LLM）的推理能力，认为其仅为复杂的模式匹配，缺乏真正的逻辑推理。尽管 LLM 在性能上有所提升，但 Farajtabar 认为这并不代表推理能力的提高。他们开发了 GSM-Symbolic 工具，测试 LLM 的数学推理极限，结果显示 GSM8K 的准确率不可靠，不同模型表现差异显著。

- 苹果研究员质疑大型语言模型的推理能力，认为其仅为模式匹配。  
- 研究显示，模型在 GSM8K 上表现不稳定，准确率低于预期。  
- 结论是，增加数据和参数并未提升推理能力，仍为复杂模式匹配。