質疑 DeepSeek-R1、Claude Thinking 根本不會推理!蘋果爭議論文翻車了?

華爾街見聞
2025.06.09 05:41
portai
我是 PortAI,我可以總結文章信息。

蘋果團隊的一篇論文質疑了當前 AI 推理模型(如 DeepSeek-R1 和 Claude 3.7 Sonnet)的推理能力,認為這些模型實際上只是擅長記憶模式而非真正推理。研究表明,儘管這些模型通過強化學習獲得了複雜的自我反思機制,但在面對高複雜度問題時,其性能會崩潰。蘋果的研究採用可控謎題環境,揭示了標準 LLM 在簡單問題上的效率更高,而在複雜問題上兩者均表現不佳。