AI 推理能力大 “翻车”!苹果最新论文:LLM 只是复杂的模式匹配,而不是真正的逻辑推理

华尔街见闻
2024.10.13 03:08
portai
我是 PortAI,我可以总结文章信息。

苹果研究员 Mehrdad Farajtabar 等人发表论文质疑大型语言模型(LLM)的推理能力,认为其仅为复杂的模式匹配,缺乏真正的逻辑推理。尽管 LLM 在性能上有所提升,但 Farajtabar 认为这并不代表推理能力的提高。他们开发了 GSM-Symbolic 工具,测试 LLM 的数学推理极限,结果显示 GSM8K 的准确率不可靠,不同模型表现差异显著。