AI 推理能力大 “翻車”!蘋果最新論文:LLM 只是複雜的模式匹配,而不是真正的邏輯推理

華爾街見聞
2024.10.13 03:08
portai
我是 PortAI,我可以總結文章信息。

蘋果研究員 Mehrdad Farajtabar 等人發表論文質疑大型語言模型(LLM)的推理能力,認為其僅為複雜的模式匹配,缺乏真正的邏輯推理。儘管 LLM 在性能上有所提升,但 Farajtabar 認為這並不代表推理能力的提高。他們開發了 GSM-Symbolic 工具,測試 LLM 的數學推理極限,結果顯示 GSM8K 的準確率不可靠,不同模型表現差異顯著。