AI 推理能力大 “翻車”!蘋果最新論文:LLM 只是複雜的模式匹配,而不是真正的邏輯推理

華爾街見聞
2024.10.13 03:08
portai
我是 PortAI,我可以總結文章信息。

蘋果研究員 Mehrdad Farajtabar 等人發表論文質疑大型語言模型(LLM)的推理能力,認為其僅為複雜的模式匹配,缺乏真正的邏輯推理。儘管 LLM 在性能上有所提升,但 Farajtabar 認為這並不代表推理能力的提高。他們開發了 GSM-Symbolic 工具,測試 LLM 的數學推理極限,結果顯示 GSM8K 的準確率不可靠,不同模型表現差異顯著。

蘋果的研究員 Mehrdad Farajtabar 等人最近發表了一篇論文,對大型語言模型 (LLM) 的推理能力提出了尖鋭的質疑,他認為,LLM 的 “推理” 能力,其實只是複雜的模式匹配,不堪一擊!

論文作者研究了包括 Llama、Phi、Gemma、Mistral 等開源模型,以及 GPT-4o 和 o1 系列等閉源模型。需要指出的是,在 OpenAI 發佈 GSM8K 的三年裏,模型的性能有了顯著提升,從 GPT-3 (175B) 的 35% 提升到了現在 30 億參數模型的 85% 以上,更大的模型甚至超過了 95%。但 Farajtabar 認為,這並不能證明 LLM 的推理能力真的提高了

為了測試 LLM 的數學推理能力的極限,Farajtabar 和他的團隊開發了一個名為 GSM-Symbolic 的新工具,它可以根據 GSM8K 測試集創建符號模板,從而能夠生成大量實例並設計可控實驗。他們生成了 50 個獨特的 GSM-Symbolic 集合,這些集合本質上就像 GSM8K 示例,但具有不同的值和名稱

GSM8K 是 “Grade School Math 8K” 的縮寫,是一個用來評估數學問題解決能力的數據集。這個數據集主要包含小學級別的數學題目(大約 8,000 道題目),通常用於訓練和測試機器學習模型,特別是在自然語言處理領域的模型如何處理和解決數學問題

實驗結果,令人大跌眼鏡:

1.當前 GSM8K 的準確率並不可靠! 不同模型在 GSM8K 上的表現差異巨大,例如 Llama 8B 的得分在 70% 到 80% 之間,Phi-3 的得分在 75% 到 90% 之間,等等。對於大多數模型,在 GSM-Symbolic 上的平均性能低於在 GSM8K 上的平均性能

2.所謂的 LLM 推理能力不堪一擊! LLM 對專有名詞和數字的更改非常敏感,這説明它們並沒有真正理解數學概念。就像一個小學生,如果我們只是更改了數學測試題中的人名,他的分數就會下降 10% 嗎?顯然不會

3.隨着問題難度的增加 (M1 → Symbolic → P1 → P2)。引入了 GSM-Symbolic 的三個新變體來研究模型行為:刪除一個分句(GSM-M1)、增加一個分句(GSM-P1)或增加兩個分句(GSM-P2),模型的性能下降,方差上升, 這意味着模型的可靠性越來越差

4.引入 GSM-NoOp 後,模型性能斷崖式下跌! GSM-NoOp 是在 GSM-Symbolic 的基礎上,添加了一個看似相關但不影響整體推理的子句。所有模型,包括 o1 模型,都表現出了顯著的性能下降。這説明,即使是強大的 o1 模型,也無法真正理解數學問題的邏輯結構

5.即使是 OpenAI 的 o1 系列模型,也無法完全避免這些問題。 o1-preview 雖然有所改進,但仍然會犯一些低級錯誤,例如無法理解 “現在” 和 “去年” 的區別,這可能是因為訓練數據中包含了 “通貨膨脹” 的模式,模型只是簡單地模仿了這種模式

Farajtabar 認為,

LLM 的這些表現,更好地解釋是複雜的模式匹配,而不是真正的邏輯推理。 即使我們增加數據、參數和計算量,或者使用更好的訓練數據,也只是得到了 “更好的模式匹配器”,而不是 “更好的推理器”

Denny Zhou (谷歌 DeepMind 的 LLM 推理團隊負責人) 也參與了討論,他指出:

“這項工作的一個關鍵發現是:向 GSM8k 問題添加不相關的上下文會導致 LLM 無法解決這些問題,正如我們在 ICML 2023 年的論文 ‘大型語言模型很容易被不相關的上下文分散注意力’ 中所證明的那樣。提示構建的差異在我看來仍然很有趣。”

Yuandong Tian (Meta AI 的研究科學家總監) 也表達了他的觀點:

“核心問題是:1️⃣憑藉我們的領域知識,我們可以構建權重,使 LLM 在特定問題中進行良好的推理;2️⃣然而,梯度下降可能無法學習到這樣的權重;3️⃣我們仍然依賴梯度下降,因為它為許多領域帶來了魔力——如果它在其他領域變得愚蠢,我們也無能為力。”

結論

總的來説,這篇論文研究結果沒有在包括 Llama、Phi、Gemma 和 Mistral 等開源模型,以及最近的 OpenAI GPT-4o 和 o1 系列等領先閉源模型在內的語言模型中,找到任何形式推理的證據。他們的行為可以用複雜的模式匹配來更好地解釋——如此脆弱,以至於更改名稱都會使結果改變約 10%!我們可以擴展數據、參數和計算量——或者為 Phi-4、Llama-4、GPT-5 使用更好的訓練數據。但這可能只會產生 “更好的模式匹配器”,而不是 “更好的推理器”

本文作者:opencat,文章來源:AI 寒武紀,原文標題:《AI 推理能力大 “翻車”!蘋果最新論文:LLM 只是複雜的模式匹配,而不是真正的邏輯推理》。