<div id="readability-page-1">蘋果的研究員 Mehrdad Farajtabar 等人最近發表了一篇論文，對大型語言模型 (LLM) 的推理能力提出了尖鋭的質疑，他認為，LLM 的 “推理” 能力，其實只是複雜的模式匹配，不堪一擊！ <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/aca7cb9f-6efd-484c-beb1-53a3b9fa47b7.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1080" height="1044" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/aca7cb9f-6efd-484c-beb1-53a3b9fa47b7.jpeg"/> 論文作者研究了包括 Llama、Phi、Gemma、Mistral 等開源模型，以及 GPT-4o 和 o1 系列等閉源模型。需要指出的是，在 OpenAI 發佈 GSM8K 的三年裏，模型的性能有了顯著提升，從 GPT-3 (175B) 的 35% 提升到了現在 30 億參數模型的 85% 以上，更大的模型甚至超過了 95%。但 Farajtabar 認為，這並不能證明 LLM 的推理能力真的提高了 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/857f284a-488f-4e8d-93d7-617cca8e377b.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1080" height="601" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/857f284a-488f-4e8d-93d7-617cca8e377b.jpeg"/> 為了測試 LLM 的數學推理能力的極限，Farajtabar 和他的團隊開發了一個名為 GSM-Symbolic 的新工具，它可以根據 GSM8K 測試集創建符號模板，從而能夠生成大量實例並設計可控實驗。他們生成了 50 個獨特的 GSM-Symbolic 集合，這些集合本質上就像 GSM8K 示例，但具有不同的值和名稱 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/58280df8-bcd2-426a-a2c9-678811ff6692.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1080" height="773" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/58280df8-bcd2-426a-a2c9-678811ff6692.jpeg"/> GSM8K 是 “Grade School Math 8K” 的縮寫，是一個用來評估數學問題解決能力的數據集。這個數據集主要包含小學級別的數學題目（大約 8,000 道題目），通常用於訓練和測試機器學習模型，特別是在自然語言處理領域的模型如何處理和解決數學問題 <h2>實驗結果，令人大跌眼鏡：</h2> 1.當前 GSM8K 的準確率並不可靠！ 不同模型在 GSM8K 上的表現差異巨大，例如 Llama 8B 的得分在 70% 到 80% 之間，Phi-3 的得分在 75% 到 90% 之間，等等。對於大多數模型，在 GSM-Symbolic 上的平均性能低於在 GSM8K 上的平均性能 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/0b26622f-0d48-481b-918a-61b5889cccef.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="770" height="397" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/0b26622f-0d48-481b-918a-61b5889cccef.jpeg"/> <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/629b3a60-ef9b-4693-98d2-fbe91070e926.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1080" height="516" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/629b3a60-ef9b-4693-98d2-fbe91070e926.jpeg"/> 2.所謂的 LLM 推理能力不堪一擊！ LLM 對專有名詞和數字的更改非常敏感，這説明它們並沒有真正理解數學概念。就像一個小學生，如果我們只是更改了數學測試題中的人名，他的分數就會下降 10% 嗎？顯然不會 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/b41edde1-bb05-40db-b2b5-132774e0dfe3.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1080" height="518" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/b41edde1-bb05-40db-b2b5-132774e0dfe3.jpeg"/> 3.隨着問題難度的增加 (M1 → Symbolic → P1 → P2)。引入了 GSM-Symbolic 的三個新變體來研究模型行為：刪除一個分句（GSM-M1）、增加一個分句（GSM-P1）或增加兩個分句（GSM-P2），模型的性能下降，方差上升， 這意味着模型的可靠性越來越差 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/1ec9851a-a7f4-47bf-8e4d-a74c72074736.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1042" height="912" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/1ec9851a-a7f4-47bf-8e4d-a74c72074736.jpeg"/> 4.引入 GSM-NoOp 後，模型性能斷崖式下跌！ GSM-NoOp 是在 GSM-Symbolic 的基礎上，添加了一個看似相關但不影響整體推理的子句。所有模型，包括 o1 模型，都表現出了顯著的性能下降。這説明，即使是強大的 o1 模型，也無法真正理解數學問題的邏輯結構 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/0b61a74c-201b-4d5a-88b9-4475cd3868b0.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1060" height="1215" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/0b61a74c-201b-4d5a-88b9-4475cd3868b0.jpeg"/> 5.即使是 OpenAI 的 o1 系列模型，也無法完全避免這些問題。 o1-preview 雖然有所改進，但仍然會犯一些低級錯誤，例如無法理解 “現在” 和 “去年” 的區別，這可能是因為訓練數據中包含了 “通貨膨脹” 的模式，模型只是簡單地模仿了這種模式 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/8afd735a-65f0-49b7-8da7-82521776bd82.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1060" height="645" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/8afd735a-65f0-49b7-8da7-82521776bd82.jpeg"/> Farajtabar 認為， <blockquote> LLM 的這些表現，更好地解釋是複雜的模式匹配，而不是真正的邏輯推理。 即使我們增加數據、參數和計算量，或者使用更好的訓練數據，也只是得到了 “更好的模式匹配器”，而不是 “更好的推理器” </blockquote> Denny Zhou (谷歌 DeepMind 的 LLM 推理團隊負責人) 也參與了討論，他指出： <blockquote> “這項工作的一個關鍵發現是：向 GSM8k 問題添加不相關的上下文會導致 LLM 無法解決這些問題，正如我們在 ICML 2023 年的論文 ‘大型語言模型很容易被不相關的上下文分散注意力’ 中所證明的那樣。提示構建的差異在我看來仍然很有趣。” </blockquote> Yuandong Tian (Meta AI 的研究科學家總監) 也表達了他的觀點： <blockquote> “核心問題是：1️⃣憑藉我們的領域知識，我們可以構建權重，使 LLM 在特定問題中進行良好的推理；2️⃣然而，梯度下降可能無法學習到這樣的權重；3️⃣我們仍然依賴梯度下降，因為它為許多領域帶來了魔力——如果它在其他領域變得愚蠢，我們也無能為力。” </blockquote> 結論 <blockquote> 總的來説，這篇論文研究結果沒有在包括 Llama、Phi、Gemma 和 Mistral 等開源模型，以及最近的 OpenAI GPT-4o 和 o1 系列等領先閉源模型在內的語言模型中，找到任何形式推理的證據。他們的行為可以用複雜的模式匹配來更好地解釋——如此脆弱，以至於更改名稱都會使結果改變約 10%！我們可以擴展數據、參數和計算量——或者為 Phi-4、Llama-4、GPT-5 使用更好的訓練數據。但這可能只會產生 “更好的模式匹配器”，而不是 “更好的推理器” </blockquote> 本文作者：opencat，文章來源：AI 寒武紀，原文標題：《AI 推理能力大 “翻車”！蘋果最新論文：LLM 只是複雜的模式匹配，而不是真正的邏輯推理》。 </div>

蘋果

蘋果研究員 Mehrdad Farajtabar 等人發表論文質疑大型語言模型（LLM）的推理能力，認為其僅為複雜的模式匹配，缺乏真正的邏輯推理。儘管 LLM 在性能上有所提升，但 Farajtabar 認為這並不代表推理能力的提高。他們開發了 GSM-Symbolic 工具，測試 LLM 的數學推理極限，結果顯示 GSM8K 的準確率不可靠，不同模型表現差異顯著。

- 蘋果研究員質疑大型語言模型的推理能力，認為其僅為模式匹配。  
- 研究顯示，模型在 GSM8K 上表現不穩定，準確率低於預期。  
- 結論是，增加數據和參數並未提升推理能力，仍為複雜模式匹配。