
苹果公司的一项研究探讨人工智能是否能够自主思考,专家认为其限制是人为设定的

一项由苹果公司进行的新研究质疑了人工智能模型的推理能力,认为它们往往模仿智能行为,而非真正进行推理。对流行模型如 GPT-4 和 Claude 进行逻辑难题测试时,发现它们在复杂问题解决方面存在显著失败。尽管一些专家认为这些局限性源于设计限制,而非固有缺陷,但其他人对该研究的方法论提出了批评。研究发布后,苹果的股票下跌,反映出人们对该公司在最近的全球开发者大会后人工智能进展的担忧
来自 苹果公司 的一项新研究引发了关于人工智能模型是否能够真正推理或仅仅模仿智能行为的辩论。通过对 GPT-4 变体和 Claude 等系统进行经典逻辑难题的测试,研究表明这些工具在需要真正解决问题时可能会出现失误。
发生了什么: 苹果发布了一项研究,挑战了大型语言模型(LLMs)能够通过复杂任务进行逻辑推理的观点。Ars Technica 解释说,通过对 OpenAI 的 o1 和 o3、Claude 3.7 Sonnet 以及 DeepSeek-R1 等流行模型进行经典逻辑难题的测试,如汉诺塔和过河任务,研究团队发现这些系统在遇到需要系统思维的不熟悉挑战时往往会失败。
即使配备了成熟的算法,这些模型也面临困难——突显了智能表现与实际逻辑思考之间的关键差距。
“大型语言模型无法可靠地解决汉诺塔问题真是令人尴尬,” 人工智能研究员 Gary Marcus 说道,联合负责人 Iman Mirzadeh 补充说模型的表现显示 “它们的过程并不逻辑且智能。”
研究还发现,尽管一些模型在中等难度任务上通过逐步推理表现更好,但随着复杂性的增加,它们完全失败,往往减少推理的努力而不是增加。
这种努力的奇怪下降,尽管计算资源充足,显示了研究人员所称的 “反直觉的规模限制”。在各种难题中也观察到了不一致性,表明这些失败是特定任务的,而不仅仅是技术上的问题。
为什么这很重要: 一些专家反驳了苹果的结论,认为人工智能模型中明显的推理失败可能源于内置的限制,而不是固有的缺陷。
Pierre Ferragu,来自 New Street Research 的分析师表示,这篇论文充满了 “本体论的无稽之谈”。
经济学家 Kevin A. Bryan 提出,这些系统是在紧张的计算预算下训练使用捷径的。他和其他人指出,内部基准显示,当允许更多的标记时,模型表现更好,但生产系统故意限制这一点以避免低效,这意味着苹果的发现可能是设计上的限制,而非自然上的限制。
其他人,如软件工程师 Sean Goedecke 和人工智能研究员 Simon Willison,质疑逻辑难题是否真的是对语言模型的公平测试。Goedecke 将 DeepSeek-R1 在汉诺塔上的失败描述为避免不切实际输出的有意识决定,而不是能力的缺乏。
Willison 补充说,测试可能只是遇到了标记限制,暗示这篇论文更具轰动性而非结论性。即使苹果的研究人员也承认这些难题代表了推理挑战的狭窄切片,并警告不要过于广泛地推广他们的结果。
这项研究恰逢全球开发者大会(WWDC),苹果在会上发布了一系列新产品的公告。专家们注意到缺乏任何新的人工智能功能,并表示失望,导致公司股票下调。在活动后,股价下跌,许多人对苹果的人工智能未来提出了质疑。
价格动态: 苹果股票目前交易价格为 198.76 美元,盘前下跌 -0.01%。
Benzinga Edge 排名显示,动量为 29.72,价值为 9.02,增长为 32.90,质量以 76.94 的分数领先。欲了解更多详情,请点击这里。
- 史蒂夫·乔布斯会 ‘解雇所有人’:苹果在 iOS 26 中的液态玻璃在线遭到嘲讽——Dan Ives 称 WWDC 2025 为 ‘无聊’
图片来源:jamesteohart / Shutterstock.com

