---
title: "GPT-5.2 首發評測：大神深度體驗兩週，強到離譜，但慢得抓狂"
type: "News"
locale: "zh-HK"
url: "https://longbridge.com/zh-HK/news/269446376.md"
description: "OpenAI 推出 GPT-5.2 以對抗谷歌 Gemini 3，稱為重大更新。GPT-5.2 在指令遵循、代碼生成、視覺和長上下文方面有顯著提升，但速度較慢。OthersideAI CEO Matt Shumer 深度評測指出其在深度推理方面表現出色，但速度是主要缺點。GPT-5.2 Pro 在命令行工具中接近專業級別，但高級推理模式需長時間等待。"
datetime: "2025-12-12T00:05:53.000Z"
locales:
  - [zh-CN](https://longbridge.com/zh-CN/news/269446376.md)
  - [en](https://longbridge.com/en/news/269446376.md)
  - [zh-HK](https://longbridge.com/zh-HK/news/269446376.md)
---

# GPT-5.2 首發評測：大神深度體驗兩週，強到離譜，但慢得抓狂

為了緊急對抗谷歌的 Gemini 3 ，OpenAI 剛剛推出了 GPT-5.2，sam Altman 叫喊這是很長時間以來最大的更新

基準測試分數官方的發佈博客文章都有，跑分屠榜，編程能力非常強，但現在的這些分數看看就好了，感興趣的看這裏

https://openai.com/index/introducing-gpt-5-2/

GPT-5.2 的幻覺減少了大約 30-40%

價格更貴了

另外聖誕節還有發佈，估計是圖像模型更新？ChatGPT 的 “成人模式” 目前計劃於明年第一季度推出

這裏我分享一下大神 OthersideAI CEO Matt Shumer 對 GPT-5.2 深度評測，這哥們已經拿到內測兩週了

核心要點先放在前面：

**指令遵循和任務意願**：GPT-5.2 Thinking 在指令遵循和嘗試完成困難任務的意願上，邁出了有意義的一步

**代碼生成能力提升巨大**：比 GPT-5.1 好得多。能力更強、更自主、更謹慎，並且願意編寫多得多的代碼

**視覺和長上下文**：大幅改進，尤其是在理解圖像中的位置和處理大型代碼庫方面

**速度是主要缺點**：作者體驗中，Thinking 模式在處理大多數問題時都非常慢（儘管其他測試者反饋不一）。他幾乎從不使用 Instant 模式

**GPT-5.2 Pro**：在深度推理方面強到離譜，但速度很慢，而且偶爾會陷入長時間思考後仍然失敗的境地

**Codex CLI**：GPT-5.2 是作者在命令行工具中使用過的最接近 Pro 級編碼能力的模型，但實現這一能力的高級推理模式有時需要漫長的等待

以下是詳細評測內容。

## **GPT-5.2 Thinking：直覺的提升**

GPT-5.2 最引人注目的地方在於它遵循指令的方式——不是基礎的 “我説你做”，而是 “真正完成我所描述的整個任務”

作者舉了一個例子。在測試創意寫作時，他要求模型先想出 50 個情節構思，然後再選出最好的一個來寫故事。大多數模型會走捷徑，可能只給出 10 個想法，選一個就開始。

而 GPT-5.2 確實生成了全部 50 個構思，然後才進行選擇。這聽起來是小事，但並非如此。在進行創意工作或研究時，多出來的 40 個想法中可能就包含了那個真正有趣的火花。模型信任流程，而不是為了速度而優化，這一點至關重要。

作者進一步測試，要求它寫一本 200 頁的書。雖然書頁內容本身很弱且簡短，模型還無法一次性寫出可出版的小説，但令人印象深刻的是，它確實**嘗試**去做了。它構建了整本書的結構，甚至設置成了 PDF 格式。大多數模型會假設自己做不到，甚至不會嘗試，它們會告訴你 “這太長了”，或者只給你一個大綱

GPT-5.2 則是直接上手。這種願意嘗試宏大任務（即便不完美）的意願，開啓了新的工作流。

## **代碼生成：真正的進步**

GPT-5.2 在代碼生成方面確實比以前的模型有了巨大進步。它寫的代碼質量更高，能處理的任務也更龐大

例如，作者用 Three.js 動畫來壓力測試其空間推理能力。他要求模型構建一個棒球場景，它生成的風格比大多數模型更逼真（紋理/光照效果很棒），但空間感知和物體放置仍有很大改進空間

此外，該模型願意編寫比之前版本多得多的代碼，並且能持續工作更長時間不中斷。這是實實在在的能力提升。

## **視覺和長上下文**

5.2 版本的視覺能力有顯著提升。它對圖像的理解，特別是位置和空間關係，有了很大的不同（儘管空間生成能力仍在開發中）。這對操作計算機的智能體來説是個好消息。

它的長上下文能力也很出色。在處理大型代碼庫、大量數據和長篇分析時感覺比以前更穩定，這也是 GPT-5.2 在智能體編碼工作流中表現出色的原因之一。

作者在這裏吐槽了一點：模型已經變得如此強大，但 OpenAI 的 ChatGPT 界面卻完全沒跟上。例如，ChatGPT 中的 Canvas 界面仍然無法處理大量代碼。他最初在 Canvas 中嘗試 Three.js 測試，但模型輸出的代碼量超出了 Canvas 的處理能力

另外，Pro 模式仍然只能在 ChatGPT 內部使用，而不能在 Codex CLI 中使用，這讓作者持續感到沮喪。為了解決這個問題，他使用一個叫 RepoPrompt 的工具：將本地代碼庫轉成提示詞粘貼給 5.2 Pro，再把模型的回答粘貼回 RepoPrompt，由後者將變更應用到代碼庫。雖然多了一個步驟，但這讓他能在真實代碼庫上利用 Pro 級別的推理能力。

## **風格**

用過 OpenAI 模型的人都知道它們對項目符號（bullet points）的執着。GPT-5.2 延續了這一傳統。當你讓它解釋某件事時，往往會得到一個項目符號列表，而其實幾段清晰的文字效果會更好。通過精心設計提示詞（比如明確要求流暢的散文風格），可以規避這個問題。

除了項目符號，寫作風格整體有所改善。雖然不是對 GPT-5.1 的巨大飛躍，但確實更好了一些

積極的一面是，GPT-5.2 學會了在回答中保持簡潔。當我問一些簡單問題時，偶爾能得到簡單的答案。作者表示，雖然這還沒成為默認行為，但已是進步。

## **速度問題**

這一點影響了作者的日常使用：標準的 GPT-5.2 Thinking 很慢。根據他的經驗，即使是簡單直接的問題，速度也**非常非常慢**。不過，他也提到其他測試者報告了不同的速度表現，有些任務快，有些任務慢。

在實際工作中，這意味着他很少使用 GPT-5.2 Thinking。他的工作流變成了：

-   • 快速問題 → Claude Opus 4.5
-   • 深度推理 → GPT-5.2 Pro

標準的 Thinking 模型處於一個尷尬的中間地帶：比 Opus 慢，又沒有 Pro 完整的推理優勢。

## **各模型橫向對比**

作者同時使用 Claude Opus 4.5、Gemini 3 Pro 和 GPT-5.2，它們在他的工作流中形成了明確分工：

**用於快速提問**：“X 的語法是什麼” 或 “提醒我 Y 如何工作” 這類問題 Claude Opus 4.5 勝出。它更快，更直接。

**用於研究和複雜推理**：GPT-5.2 Pro 明顯更勝一籌。當任務需要從多個角度思考、需要整合大量上下文時，Pro 的表現最優

**用於前端 UI 生成**：GPT-5.2 Thinking 和 Pro 都比之前的 GPT 模型有進步，但兩者都不及 Gemini 3 Pro。這裏的區別很微妙：Gemini 3 Pro 有最好的審美感，其 UI 看起來很棒。但它在佈局和前端工程方面的可靠性稍差。所以，如果需要功能正確、能處理邊緣情況的 UI，作者還是會用 Opus 或 GPT。如果只是追求漂亮，並願意自己修復代碼，Gemini 3 Pro 是目前最佳選擇

## **GPT-5.2 Pro：一個緩慢的天才**

Pro 模式是真正有趣的地方。它是一個獨立的系統，且只在 ChatGPT 中可用。

簡而言之：Pro 聰明到離譜。Thinking 和 Pro 之間的智能差距立即可見。但比原始智能更重要的是 Pro 的**思考意願**。它會花費比以往 Pro 模型長得多的時間來解決一個問題。對於研究任務，如果需要，它會進行極長時間的資料蒐集。

**食譜測試**

作者舉了一個具體例子。他向模型尋求膳食計劃幫助，並強調自己 “沒有時間做飯”，需要一個 7 天的計劃（每天三餐兩點）。

Pro 提供了出色的食譜計劃，但最突出的是它的**配料表**——比其他模型建議的簡單得多。它理解了 “沒時間” 不僅限制了烹飪時間，也限制了購物的複雜性、準備工作和心力開銷。它領會了作者的心態，而不僅僅是字面請求。

作者表示，看到這種程度的理解相當令人震驚。他把同樣的提示發給了所有其他前沿模型，沒有一個考慮到這一點。

## **提示詞編寫**

GPT-5.2 非常擅長編寫提示詞，這對於充分利用 AI 模型和構建集成 LLM 的軟件都很有幫助。它寫的提示詞考慮周到，並且能預見到作者未曾考慮的邊緣情況。在這方面，它與 Claude Opus 4.5 不相上下，並且明顯優於 Gemini 3 Pro。

## **Codex CLI 實測**

在 Codex CLI 中，作者對 GPT-5.2 進行了廣泛測試，結果是越用越印象深刻。這是他所見過的在命令行中最接近 Pro 級模型的體驗。它一次性做對的頻率遠超其他工具。美中不足的是，他只能使用 “超高推理模式”，這個模式有時會花費漫長的時間，甚至比 Pro 還慢。

其自主性比以前的模型有明顯提升。但真正的區別在於它**收集上下文**的方式。Claude Opus 4.5 傾向於在完全理解問題前就開始寫代碼，它會做出假設，然後碰壁。

而 GPT-5.2 不會這樣。它會先提問、讀取文件、探索代碼庫。**先收集上下文，再編寫代碼**。

這改善了作者的工作流。他檢查模型工作的次數越來越少。除非任務至關重要（例如生產代碼），他常常讓它直接運行而不審查每一處更改。

## **一些小怪癖**

作者也遇到了一些 Pro 模式的奇怪行為。它似乎會卡在相互衝突的指令之間，在猶豫幾分鐘後，把一個簡單的任務退回給用户。偶爾，它會思考很長時間，然後仍然失敗，這非常浪費時間。據稱 OpenAI 已經知曉並正在調查。

## **使用場景總結**

經過兩週測試，作者給出了他的實用分工：

1.  1\. 快速提問和日常任務：Claude Opus 4.5 仍是首選。它快、準，不浪費時間。
2.  2\. 深度研究、複雜推理：GPT-5.2 Pro 是目前最好的選擇。在這種場景下，正確性比速度更重要。
3.  3\. 前端樣式和 UI 美學：Gemini 3 Pro 目前能生成最好看的結果，但需要準備好自己做一些工程清理工作。
4.  4\. 在 Codex CLI 中進行嚴肅的編碼工作：GPT-5.2 是首選，其上下文收集行為和可靠性使其成為智能體編碼任務的默認選項。

## **最後總結**

GPT-5.2 是一次真正的改進。指令遵循能力明顯提高，Pro 模式的智能和可靠性令人印象深刻。對於需要審慎推理的複雜任務，這是作者用過的最好的模型。

然而，標準 Thinking 模型的速度問題使他日常很少使用。他最終的用法是：快速任務用 Opus 4.5，深度工作用 Pro。

但對於那些 GPT-5.2 擅長的任務，它的表現確實非常亮眼

source：

https://shumer.dev/gpt52review

風險提示及免責條款

市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。

### 相關股票

- [OpenAI.NA](https://longbridge.com/zh-HK/quote/OpenAI.NA.md)

## 相關資訊與研究

- [AI 開始管你的錢？OpenAI 推 ChatGPT 個人理財功能、可分析支出與投資  引爆隱私爭議](https://longbridge.com/zh-HK/news/286663796.md)
- [OpenAI:通用推理模型破解困擾 80 年數學難題](https://longbridge.com/zh-HK/news/287153776.md)
- [長期續約戰開打！OpenAI 推全新「保證算力容量」服務](https://longbridge.com/zh-HK/news/286976956.md)
- [「養龍蝦」代價驚人！OpenClaw 開發者曝月燒 130 萬美元，由 OpenAI 買單](https://longbridge.com/zh-HK/news/286685509.md)
- [OpenAI 據悉擬在幾周內提交 IPO 文件 計畫於秋季上市](https://longbridge.com/zh-HK/news/287129746.md)