质疑 DeepSeek-R1、Claude Thinking 根本不会推理!苹果争议论文翻车了?

华尔街见闻
2025.06.09 05:41
portai
我是 PortAI,我可以总结文章信息。

苹果团队的一篇论文质疑了当前 AI 推理模型(如 DeepSeek-R1 和 Claude 3.7 Sonnet)的推理能力,认为这些模型实际上只是擅长记忆模式而非真正推理。研究表明,尽管这些模型通过强化学习获得了复杂的自我反思机制,但在面对高复杂度问题时,其性能会崩溃。苹果的研究采用可控谜题环境,揭示了标准 LLM 在简单问题上的效率更高,而在复杂问题上两者均表现不佳。