---
title: "GPT-5.2 首发评测：大神深度体验两周，强到离谱，但慢得抓狂"
type: "News"
locale: "zh-CN"
url: "https://longbridge.com/zh-CN/news/269446376.md"
description: "OpenAI 推出 GPT-5.2 以对抗谷歌 Gemini 3，称为重大更新。GPT-5.2 在指令遵循、代码生成、视觉和长上下文方面有显著提升，但速度较慢。OthersideAI CEO Matt Shumer 深度评测指出其在深度推理方面表现出色，但速度是主要缺点。GPT-5.2 Pro 在命令行工具中接近专业级别，但高级推理模式需长时间等待。"
datetime: "2025-12-12T00:05:53.000Z"
locales:
  - [zh-CN](https://longbridge.com/zh-CN/news/269446376.md)
  - [en](https://longbridge.com/en/news/269446376.md)
  - [zh-HK](https://longbridge.com/zh-HK/news/269446376.md)
---

# GPT-5.2 首发评测：大神深度体验两周，强到离谱，但慢得抓狂

为了紧急对抗谷歌的 Gemini 3 ，OpenAI 刚刚推出了 GPT-5.2，sam Altman 叫喊这是很长时间以来最大的更新

基准测试分数官方的发布博客文章都有，跑分屠榜，编程能力非常强，但现在的这些分数看看就好了，感兴趣的看这里

https://openai.com/index/introducing-gpt-5-2/

GPT-5.2 的幻觉减少了大约 30-40%

价格更贵了

另外圣诞节还有发布，估计是图像模型更新？ChatGPT 的 “成人模式” 目前计划于明年第一季度推出

这里我分享一下大神 OthersideAI CEO Matt Shumer 对 GPT-5.2 深度评测，这哥们已经拿到内测两周了

核心要点先放在前面：

**指令遵循和任务意愿**：GPT-5.2 Thinking 在指令遵循和尝试完成困难任务的意愿上，迈出了有意义的一步

**代码生成能力提升巨大**：比 GPT-5.1 好得多。能力更强、更自主、更谨慎，并且愿意编写多得多的代码

**视觉和长上下文**：大幅改进，尤其是在理解图像中的位置和处理大型代码库方面

**速度是主要缺点**：作者体验中，Thinking 模式在处理大多数问题时都非常慢（尽管其他测试者反馈不一）。他几乎从不使用 Instant 模式

**GPT-5.2 Pro**：在深度推理方面强到离谱，但速度很慢，而且偶尔会陷入长时间思考后仍然失败的境地

**Codex CLI**：GPT-5.2 是作者在命令行工具中使用过的最接近 Pro 级编码能力的模型，但实现这一能力的高级推理模式有时需要漫长的等待

以下是详细评测内容。

## **GPT-5.2 Thinking：直觉的提升**

GPT-5.2 最引人注目的地方在于它遵循指令的方式——不是基础的 “我说你做”，而是 “真正完成我所描述的整个任务”

作者举了一个例子。在测试创意写作时，他要求模型先想出 50 个情节构思，然后再选出最好的一个来写故事。大多数模型会走捷径，可能只给出 10 个想法，选一个就开始。

而 GPT-5.2 确实生成了全部 50 个构思，然后才进行选择。这听起来是小事，但并非如此。在进行创意工作或研究时，多出来的 40 个想法中可能就包含了那个真正有趣的火花。模型信任流程，而不是为了速度而优化，这一点至关重要。

作者进一步测试，要求它写一本 200 页的书。虽然书页内容本身很弱且简短，模型还无法一次性写出可出版的小说，但令人印象深刻的是，它确实**尝试**去做了。它构建了整本书的结构，甚至设置成了 PDF 格式。大多数模型会假设自己做不到，甚至不会尝试，它们会告诉你 “这太长了”，或者只给你一个大纲

GPT-5.2 则是直接上手。这种愿意尝试宏大任务（即便不完美）的意愿，开启了新的工作流。

## **代码生成：真正的进步**

GPT-5.2 在代码生成方面确实比以前的模型有了巨大进步。它写的代码质量更高，能处理的任务也更庞大

例如，作者用 Three.js 动画来压力测试其空间推理能力。他要求模型构建一个棒球场景，它生成的风格比大多数模型更逼真（纹理/光照效果很棒），但空间感知和物体放置仍有很大改进空间

此外，该模型愿意编写比之前版本多得多的代码，并且能持续工作更长时间不中断。这是实实在在的能力提升。

## **视觉和长上下文**

5.2 版本的视觉能力有显著提升。它对图像的理解，特别是位置和空间关系，有了很大的不同（尽管空间生成能力仍在开发中）。这对操作计算机的智能体来说是个好消息。

它的长上下文能力也很出色。在处理大型代码库、大量数据和长篇分析时感觉比以前更稳定，这也是 GPT-5.2 在智能体编码工作流中表现出色的原因之一。

作者在这里吐槽了一点：模型已经变得如此强大，但 OpenAI 的 ChatGPT 界面却完全没跟上。例如，ChatGPT 中的 Canvas 界面仍然无法处理大量代码。他最初在 Canvas 中尝试 Three.js 测试，但模型输出的代码量超出了 Canvas 的处理能力

另外，Pro 模式仍然只能在 ChatGPT 内部使用，而不能在 Codex CLI 中使用，这让作者持续感到沮丧。为了解决这个问题，他使用一个叫 RepoPrompt 的工具：将本地代码库转成提示词粘贴给 5.2 Pro，再把模型的回答粘贴回 RepoPrompt，由后者将变更应用到代码库。虽然多了一个步骤，但这让他能在真实代码库上利用 Pro 级别的推理能力。

## **风格**

用过 OpenAI 模型的人都知道它们对项目符号（bullet points）的执着。GPT-5.2 延续了这一传统。当你让它解释某件事时，往往会得到一个项目符号列表，而其实几段清晰的文字效果会更好。通过精心设计提示词（比如明确要求流畅的散文风格），可以规避这个问题。

除了项目符号，写作风格整体有所改善。虽然不是对 GPT-5.1 的巨大飞跃，但确实更好了一些

积极的一面是，GPT-5.2 学会了在回答中保持简洁。当我问一些简单问题时，偶尔能得到简单的答案。作者表示，虽然这还没成为默认行为，但已是进步。

## **速度问题**

这一点影响了作者的日常使用：标准的 GPT-5.2 Thinking 很慢。根据他的经验，即使是简单直接的问题，速度也**非常非常慢**。不过，他也提到其他测试者报告了不同的速度表现，有些任务快，有些任务慢。

在实际工作中，这意味着他很少使用 GPT-5.2 Thinking。他的工作流变成了：

-   • 快速问题 → Claude Opus 4.5
-   • 深度推理 → GPT-5.2 Pro

标准的 Thinking 模型处于一个尴尬的中间地带：比 Opus 慢，又没有 Pro 完整的推理优势。

## **各模型横向对比**

作者同时使用 Claude Opus 4.5、Gemini 3 Pro 和 GPT-5.2，它们在他的工作流中形成了明确分工：

**用于快速提问**：“X 的语法是什么” 或 “提醒我 Y 如何工作” 这类问题 Claude Opus 4.5 胜出。它更快，更直接。

**用于研究和复杂推理**：GPT-5.2 Pro 明显更胜一筹。当任务需要从多个角度思考、需要整合大量上下文时，Pro 的表现最优

**用于前端 UI 生成**：GPT-5.2 Thinking 和 Pro 都比之前的 GPT 模型有进步，但两者都不及 Gemini 3 Pro。这里的区别很微妙：Gemini 3 Pro 有最好的审美感，其 UI 看起来很棒。但它在布局和前端工程方面的可靠性稍差。所以，如果需要功能正确、能处理边缘情况的 UI，作者还是会用 Opus 或 GPT。如果只是追求漂亮，并愿意自己修复代码，Gemini 3 Pro 是目前最佳选择

## **GPT-5.2 Pro：一个缓慢的天才**

Pro 模式是真正有趣的地方。它是一个独立的系统，且只在 ChatGPT 中可用。

简而言之：Pro 聪明到离谱。Thinking 和 Pro 之间的智能差距立即可见。但比原始智能更重要的是 Pro 的**思考意愿**。它会花费比以往 Pro 模型长得多的时间来解决一个问题。对于研究任务，如果需要，它会进行极长时间的资料搜集。

**食谱测试**

作者举了一个具体例子。他向模型寻求膳食计划帮助，并强调自己 “没有时间做饭”，需要一个 7 天的计划（每天三餐两点）。

Pro 提供了出色的食谱计划，但最突出的是它的**配料表**——比其他模型建议的简单得多。它理解了 “没时间” 不仅限制了烹饪时间，也限制了购物的复杂性、准备工作和心力开销。它领会了作者的心态，而不仅仅是字面请求。

作者表示，看到这种程度的理解相当令人震惊。他把同样的提示发给了所有其他前沿模型，没有一个考虑到这一点。

## **提示词编写**

GPT-5.2 非常擅长编写提示词，这对于充分利用 AI 模型和构建集成 LLM 的软件都很有帮助。它写的提示词考虑周到，并且能预见到作者未曾考虑的边缘情况。在这方面，它与 Claude Opus 4.5 不相上下，并且明显优于 Gemini 3 Pro。

## **Codex CLI 实测**

在 Codex CLI 中，作者对 GPT-5.2 进行了广泛测试，结果是越用越印象深刻。这是他所见过的在命令行中最接近 Pro 级模型的体验。它一次性做对的频率远超其他工具。美中不足的是，他只能使用 “超高推理模式”，这个模式有时会花费漫长的时间，甚至比 Pro 还慢。

其自主性比以前的模型有明显提升。但真正的区别在于它**收集上下文**的方式。Claude Opus 4.5 倾向于在完全理解问题前就开始写代码，它会做出假设，然后碰壁。

而 GPT-5.2 不会这样。它会先提问、读取文件、探索代码库。**先收集上下文，再编写代码**。

这改善了作者的工作流。他检查模型工作的次数越来越少。除非任务至关重要（例如生产代码），他常常让它直接运行而不审查每一处更改。

## **一些小怪癖**

作者也遇到了一些 Pro 模式的奇怪行为。它似乎会卡在相互冲突的指令之间，在犹豫几分钟后，把一个简单的任务退回给用户。偶尔，它会思考很长时间，然后仍然失败，这非常浪费时间。据称 OpenAI 已经知晓并正在调查。

## **使用场景总结**

经过两周测试，作者给出了他的实用分工：

1.  1\. 快速提问和日常任务：Claude Opus 4.5 仍是首选。它快、准，不浪费时间。
2.  2\. 深度研究、复杂推理：GPT-5.2 Pro 是目前最好的选择。在这种场景下，正确性比速度更重要。
3.  3\. 前端样式和 UI 美学：Gemini 3 Pro 目前能生成最好看的结果，但需要准备好自己做一些工程清理工作。
4.  4\. 在 Codex CLI 中进行严肃的编码工作：GPT-5.2 是首选，其上下文收集行为和可靠性使其成为智能体编码任务的默认选项。

## **最后总结**

GPT-5.2 是一次真正的改进。指令遵循能力明显提高，Pro 模式的智能和可靠性令人印象深刻。对于需要审慎推理的复杂任务，这是作者用过的最好的模型。

然而，标准 Thinking 模型的速度问题使他日常很少使用。他最终的用法是：快速任务用 Opus 4.5，深度工作用 Pro。

但对于那些 GPT-5.2 擅长的任务，它的表现确实非常亮眼

source：

https://shumer.dev/gpt52review

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

### 相关股票

- [OpenAI.NA](https://longbridge.com/zh-CN/quote/OpenAI.NA.md)

## 相关资讯与研究

- [GPT-5.6 曝光了！OpenAI 砸钱宣战：换掉 Claude Code](https://longbridge.com/zh-CN/news/286367920.md)
- [当工程师拒绝更聪明的模型：AI 推理大战，OpenAI 换了一把” 枪”](https://longbridge.com/zh-CN/news/286768357.md)
- [内忧外患夹击，OpenAI 急推 IPO 抢占 “第一股”](https://longbridge.com/zh-CN/news/287157449.md)
- [OpenAI 开创 “算力换股权” 玩法](https://longbridge.com/zh-CN/news/287036485.md)
- [OpenAI 与马耳他达成协议，当地所有民众可免费使用 ChatGPT Plus 一年](https://longbridge.com/zh-CN/news/286643599.md)