---
title: "OpenAI 的 GPT-5 已經發布，幻覺現象減少了多達 80%"
description: "OpenAI 推出了其最先進的模型 GPT-5，聲稱其幻覺現象減少了多達 80%，並在編碼、寫作、數學和視覺感知方面表現得到了改善。該模型具有一個路由系統，根據複雜性將提示引導到適當的版本。雖然 GPT-5 在其前身的基礎上顯示出逐步改進，但在工具使用和健康相關查詢方面表現出色。OpenAI 強調，儘管在基準測試中僅有邊際提升，GPT-5 的設計旨在提升用户體驗，特別是在醫療保健領域"
type: "news"
locale: "zh-HK"
url: "https://longbridge.com/zh-HK/news/252266692.md"
published_at: "2025-08-08T15:42:27.000Z"
---

# OpenAI 的 GPT-5 已經發布，幻覺現象減少了多達 80%

> OpenAI 推出了其最先進的模型 GPT-5，聲稱其幻覺現象減少了多達 80%，並在編碼、寫作、數學和視覺感知方面表現得到了改善。該模型具有一個路由系統，根據複雜性將提示引導到適當的版本。雖然 GPT-5 在其前身的基礎上顯示出逐步改進，但在工具使用和健康相關查詢方面表現出色。OpenAI 強調，儘管在基準測試中僅有邊際提升，GPT-5 的設計旨在提升用户體驗，特別是在醫療保健領域

OpenAI 在週四推出了其迄今為止最強大的模型 GPT-5。

AI 宣傳者兼 OpenAI 首席執行官 Sam Altman 將其形容為像與您自己的個人專家對話，可以按需編寫應用程序。他表示：“我們認為這種按需軟件的理念將成為 GPT-5 時代的一個定義特徵。” 他開啓了一場超過 75 分鐘的演示，內容充滿了代碼演示。

與早期模型相比，OpenAI 表示 GPT-5 在編碼、寫作、數學和視覺感知方面都有所提升，同時減少了幻覺和欺騙行為。

Youtube 視頻

需要明確的是，GPT-5 並不是一個模型。它實際上是一個模型集合，OpenAI 將根據用户意圖或請求的一般複雜性等信號來路由提示。

根據 OpenAI 的説法，簡單的提示可能會被路由到一個小而高效的模型版本，該版本可以快速響應而無需 “思考”，而一個更大、更深的推理模型可能會用於處理更復雜或更微妙的任務。這個能力是根據用户提示自動觸發的。付費用户如果願意，還可以選擇永久開啓推理功能。

這個路由模型顯然正在不斷根據新的輸入信號進行訓練，以使其更智能地決定將請求路由到哪個模型以及何時觸發推理功能。然而，OpenAI 表示，最終計劃將所有模型整合為一個單一模型。

除了速度更快，OpenAI 表示這種架構比之前的設計更高效。

“GPT-5 在較少的思考時間內獲得更多價值。在我們的評估中，GPT-5——經過思考——在能力方面的表現優於 OpenAI o3，輸出令牌減少了 50-80%，包括視覺推理、代理編碼和研究生級科學問題解決，” 該公司在一篇博客文章中寫道。

ChatGPT 的免費和 Plus 用户將可以訪問 GPT-5 和 GPT-5 mini，而 Pro 和 Enterprise 用户將可以訪問一個 Pro 變體，該變體可以進行更長時間的推理。通過 API 訪問模型的用户還將以較低的成本訪問 Nano 版本，以及標準和 mini 模型。

### 革命性升級還是被誇大的迭代

雖然 OpenAI 的演示充滿了關於 GPT-5 是其有史以來最聰明模型的誇張説法和演示，但公司的基準結果卻講述了一個略有不同的故事，主要是迭代改進。

你的眼睛沒有欺騙你。GPT-5 在數學基準如 AIME 2025 中僅顯示出迭代改進 - 點擊放大

在 AIME 2025 數學基準中，GPT-5 Pro 在使用工具時比公司的前旗艦 o3 模型領先 1.6 分，而在不使用工具時領先 7.8 分。也就是説，對於免費用户，新模型相較於 GPT4o 是一個相當大的升級，GPT 5（非 Pro）獲得了 57.5 分的優勢。在 FrontierMath 和 HMMT 數學基準中也是類似的情況。

GPT-5 在 GPQA Diamond 基準中也顯示出與 o3 相似的微小增益 - 點擊放大

同樣，在 GPQA Diamond（一個博士級科學測驗）和人類最後的考試中觀察到了迭代性能提升。在幾乎每個基準套件中，GPT-5 相較於上一代模型僅獲得了個位數的領先。

與 o3 相比，GPT-5 在工具使用和指令遵循方面更為熟練 - 點擊放大

最明顯的亮點之一是在 Tau2-bench 中，這是一個對話代理基準，GPT-5 在工具調用和指令遵循方面的改進得到了充分展示。

“基準測試是令人興奮的數字，但我們開始飽和它們，就像在某些基準中從 98% 移動到 99% 時，這意味着你需要其他東西來真正捕捉模型的偉大，” OpenAI 總裁 Greg Brockman 承認。

這無疑是為什麼演示中有如此多的時間用於演示和證言。説到這一點，Altman 特別興奮的一個能力是 GPT-5 在健康相關查詢中的表現。

“ChatGPT 的一個主要用例是健康。人們經常使用它。你們都見過人們獲得日常護理建議或有時甚至是救命診斷的例子，” Altman 説。“GPT-5 是健康領域有史以來最好的模型。它使您能夠更好地掌控您的醫療旅程。”

顯然，ChatGPT 已經取代了 WebMD 進行自我診斷。

在一次證言中，該公司似乎在建議用户在理解健康狀況時，只需將醫療文件上傳到 ChatGPT，讓 GPT-5 來解決。Altman 剛才説的關於向 ChatGPT 提供敏感信息的事情是什麼？

### OpenAI 屏蔽聲音

雖然 GPT-5 的基準增益充其量是微不足道的，但這些模型應該不太容易產生幻覺，這已成為模型為了滿足用户請求而虛構令人信服的信息的主要問題。在我們本週的測試中，OpenAI（規模更小、能力更弱）的開源模型產生了一個虛構的總統候選人，該候選人在 2024 年被唐納德·特朗普擊敗。

“GPT-5 的響應中包含事實錯誤的可能性比 GPT-4o 低約 45%，而在思考時，GPT-5 的響應中包含事實錯誤的可能性比 OpenAI o3 低約 80%，” 該公司在一篇博客文章中表示。

除了減少幻覺，OpenAI 還實施了評估，以測試模型是否存在欺騙行為。

“為了在訓練期間獲得高獎勵，推理模型可能會學會謊稱成功完成任務或對不確定的答案過於自信，” 該公司解釋道。“GPT-5 更準確地識別何時無法完成任務，並清晰地傳達其限制。”

在對真實世界聊天數據的測試中，OpenAI 表示它能夠將 o3 上的欺騙率從 4.8% 降低到推理響應中的 2.1%。

與此同時，在安全性方面，OpenAI 實施了新措施來處理可能存在疑問的敏感話題提示。與可以通過巧妙的提示工程繞過的護欄不同，該模型表示 GPT-5 現在將提供儘可能完整的響應，同時保持在可接受的安全邊際內。

例如，模型可能不會拒絕回答有關如何點燃潛在爆炸性化合物的問題，而是可能會引導用户找到相關信息，並在響應請求時發出警告。

### ChatGPT 獲得個性化或四種個性

隨着新模型的推出，OpenAI 還推出了四種新的可選個性，以便用户可以決定他們希望 AI 助手的專業程度或前衞程度。

在發佈時，將提供四種個性：憤世嫉俗者、機器人、傾聽者和書呆子。模型構建者指出，這些個性是可選擇的，目前僅限於文本聊天，獨特的語音能力將在後續推出。

“這讓你可以以與你自己的溝通風格一致的方式與 ChatGPT 互動，” OpenAI 首席研究官 Mark Chen 説道。

OpenAI 特別強調，這些個性經過特別調整，以避免在對用户問題和輸入的讚美中變得過於諂媚。

### 可用性

OpenAI 的 GPT-5 系列模型現在在 ChatGPT 上可供免費、Plus 和 Pro 用户使用，並將在下週向企業和教育用户推出。

ChatGPT 的定價保持不變，Plus 層每月 20 美元，無限制 Pro 層每月 200 美元。

專業人士還可以選擇通過 API 訪問這些模型。完整定價，包括每次輸入、輸出和緩存令牌的費用，可以在此處找到。

如果你不想為 ChatGPT 付費，本週早些時候，OpenAI 發佈了自 GPT-2 以來的首個開放權重模型。

**腳註：**

本週還發布了 Anthropic 的 Claude Opus 4.1，這是該模型的更新版本，在編碼基準測試中顯示出類似的迭代改進。®

### Related Stocks

- [OpenAI.NA - OpenAI](https://longbridge.com/zh-HK/quote/OpenAI.NA.md)

## Related News & Research

| Title | Description | URL |
|-------|-------------|-----|
| 20:44 ETGenFlux Raises $4.2M as Brands Race to Own the AI Answer | GenFlux has raised $4.2 million in seed funding, led by Symbolic Capital, to help brands optimize their visibility in AI | [Link](https://longbridge.com/zh-HK/news/275536232.md) |
| OpenAI says starting to roll out a test for ads in ChatGPT today to a subset of free and Go users in the U.S. | OpenAI says starting to roll out a test for ads in ChatGPT today to a subset of free and Go users in the U.S. | [Link](https://longbridge.com/zh-HK/news/275355173.md) |
| Codeifai Enters AI-Backed Quantum Security Market | Codeifai Ltd :CODEIFAI ENTERS AI-BACKED QUANTUM SECURITY MARKETCOMPLETION OF ACQUISITION OF ANTENNATRANSFER.IOTOTAL CONS | [Link](https://longbridge.com/zh-HK/news/276015719.md) |
| OpenAI Warns Congress on DeepSeek Distillation Tactics | OpenAI has alerted US lawmakers about its Chinese competitor DeepSeek, which may be employing advanced distillation tact | [Link](https://longbridge.com/zh-HK/news/275935776.md) |
| ICICI Securities Reaffirms Their Buy Rating on Aurobindo Pharma Ltd (AUROPHARMA) | In a report released today, from ICICI Securities maintained a Buy rating on Aurobindo Pharma Ltd, with a price target o | [Link](https://longbridge.com/zh-HK/news/276010991.md) |

---

> **免責聲明**：本文內容僅供參考，不構成任何投資建議。