--- title: "OpenAI 的 GPT-5 已經發布,幻覺現象減少了多達 80%" description: "OpenAI 推出了其最先進的模型 GPT-5,聲稱其幻覺現象減少了多達 80%,並在編碼、寫作、數學和視覺感知方面表現得到了改善。該模型具有一個路由系統,根據複雜性將提示引導到適當的版本。雖然 GPT-5 在其前身的基礎上顯示出逐步改進,但在工具使用和健康相關查詢方面表現出色。OpenAI 強調,儘管在基準測試中僅有邊際提升,GPT-5 的設計旨在提升用户體驗,特別是在醫療保健領域" type: "news" locale: "zh-HK" url: "https://longbridge.com/zh-HK/news/252266692.md" published_at: "2025-08-08T15:42:27.000Z" --- # OpenAI 的 GPT-5 已經發布,幻覺現象減少了多達 80% > OpenAI 推出了其最先進的模型 GPT-5,聲稱其幻覺現象減少了多達 80%,並在編碼、寫作、數學和視覺感知方面表現得到了改善。該模型具有一個路由系統,根據複雜性將提示引導到適當的版本。雖然 GPT-5 在其前身的基礎上顯示出逐步改進,但在工具使用和健康相關查詢方面表現出色。OpenAI 強調,儘管在基準測試中僅有邊際提升,GPT-5 的設計旨在提升用户體驗,特別是在醫療保健領域 OpenAI 在週四推出了其迄今為止最強大的模型 GPT-5。 AI 宣傳者兼 OpenAI 首席執行官 Sam Altman 將其形容為像與您自己的個人專家對話,可以按需編寫應用程序。他表示:“我們認為這種按需軟件的理念將成為 GPT-5 時代的一個定義特徵。” 他開啓了一場超過 75 分鐘的演示,內容充滿了代碼演示。 與早期模型相比,OpenAI 表示 GPT-5 在編碼、寫作、數學和視覺感知方面都有所提升,同時減少了幻覺和欺騙行為。 Youtube 視頻 需要明確的是,GPT-5 並不是一個模型。它實際上是一個模型集合,OpenAI 將根據用户意圖或請求的一般複雜性等信號來路由提示。 根據 OpenAI 的説法,簡單的提示可能會被路由到一個小而高效的模型版本,該版本可以快速響應而無需 “思考”,而一個更大、更深的推理模型可能會用於處理更復雜或更微妙的任務。這個能力是根據用户提示自動觸發的。付費用户如果願意,還可以選擇永久開啓推理功能。 這個路由模型顯然正在不斷根據新的輸入信號進行訓練,以使其更智能地決定將請求路由到哪個模型以及何時觸發推理功能。然而,OpenAI 表示,最終計劃將所有模型整合為一個單一模型。 除了速度更快,OpenAI 表示這種架構比之前的設計更高效。 “GPT-5 在較少的思考時間內獲得更多價值。在我們的評估中,GPT-5——經過思考——在能力方面的表現優於 OpenAI o3,輸出令牌減少了 50-80%,包括視覺推理、代理編碼和研究生級科學問題解決,” 該公司在一篇博客文章中寫道。 ChatGPT 的免費和 Plus 用户將可以訪問 GPT-5 和 GPT-5 mini,而 Pro 和 Enterprise 用户將可以訪問一個 Pro 變體,該變體可以進行更長時間的推理。通過 API 訪問模型的用户還將以較低的成本訪問 Nano 版本,以及標準和 mini 模型。 ### 革命性升級還是被誇大的迭代 雖然 OpenAI 的演示充滿了關於 GPT-5 是其有史以來最聰明模型的誇張説法和演示,但公司的基準結果卻講述了一個略有不同的故事,主要是迭代改進。 你的眼睛沒有欺騙你。GPT-5 在數學基準如 AIME 2025 中僅顯示出迭代改進 - 點擊放大 在 AIME 2025 數學基準中,GPT-5 Pro 在使用工具時比公司的前旗艦 o3 模型領先 1.6 分,而在不使用工具時領先 7.8 分。也就是説,對於免費用户,新模型相較於 GPT4o 是一個相當大的升級,GPT 5(非 Pro)獲得了 57.5 分的優勢。在 FrontierMath 和 HMMT 數學基準中也是類似的情況。 GPT-5 在 GPQA Diamond 基準中也顯示出與 o3 相似的微小增益 - 點擊放大 同樣,在 GPQA Diamond(一個博士級科學測驗)和人類最後的考試中觀察到了迭代性能提升。在幾乎每個基準套件中,GPT-5 相較於上一代模型僅獲得了個位數的領先。 與 o3 相比,GPT-5 在工具使用和指令遵循方面更為熟練 - 點擊放大 最明顯的亮點之一是在 Tau2-bench 中,這是一個對話代理基準,GPT-5 在工具調用和指令遵循方面的改進得到了充分展示。 “基準測試是令人興奮的數字,但我們開始飽和它們,就像在某些基準中從 98% 移動到 99% 時,這意味着你需要其他東西來真正捕捉模型的偉大,” OpenAI 總裁 Greg Brockman 承認。 這無疑是為什麼演示中有如此多的時間用於演示和證言。説到這一點,Altman 特別興奮的一個能力是 GPT-5 在健康相關查詢中的表現。 “ChatGPT 的一個主要用例是健康。人們經常使用它。你們都見過人們獲得日常護理建議或有時甚至是救命診斷的例子,” Altman 説。“GPT-5 是健康領域有史以來最好的模型。它使您能夠更好地掌控您的醫療旅程。” 顯然,ChatGPT 已經取代了 WebMD 進行自我診斷。 在一次證言中,該公司似乎在建議用户在理解健康狀況時,只需將醫療文件上傳到 ChatGPT,讓 GPT-5 來解決。Altman 剛才説的關於向 ChatGPT 提供敏感信息的事情是什麼? ### OpenAI 屏蔽聲音 雖然 GPT-5 的基準增益充其量是微不足道的,但這些模型應該不太容易產生幻覺,這已成為模型為了滿足用户請求而虛構令人信服的信息的主要問題。在我們本週的測試中,OpenAI(規模更小、能力更弱)的開源模型產生了一個虛構的總統候選人,該候選人在 2024 年被唐納德·特朗普擊敗。 “GPT-5 的響應中包含事實錯誤的可能性比 GPT-4o 低約 45%,而在思考時,GPT-5 的響應中包含事實錯誤的可能性比 OpenAI o3 低約 80%,” 該公司在一篇博客文章中表示。 除了減少幻覺,OpenAI 還實施了評估,以測試模型是否存在欺騙行為。 “為了在訓練期間獲得高獎勵,推理模型可能會學會謊稱成功完成任務或對不確定的答案過於自信,” 該公司解釋道。“GPT-5 更準確地識別何時無法完成任務,並清晰地傳達其限制。” 在對真實世界聊天數據的測試中,OpenAI 表示它能夠將 o3 上的欺騙率從 4.8% 降低到推理響應中的 2.1%。 與此同時,在安全性方面,OpenAI 實施了新措施來處理可能存在疑問的敏感話題提示。與可以通過巧妙的提示工程繞過的護欄不同,該模型表示 GPT-5 現在將提供儘可能完整的響應,同時保持在可接受的安全邊際內。 例如,模型可能不會拒絕回答有關如何點燃潛在爆炸性化合物的問題,而是可能會引導用户找到相關信息,並在響應請求時發出警告。 ### ChatGPT 獲得個性化或四種個性 隨着新模型的推出,OpenAI 還推出了四種新的可選個性,以便用户可以決定他們希望 AI 助手的專業程度或前衞程度。 在發佈時,將提供四種個性:憤世嫉俗者、機器人、傾聽者和書呆子。模型構建者指出,這些個性是可選擇的,目前僅限於文本聊天,獨特的語音能力將在後續推出。 “這讓你可以以與你自己的溝通風格一致的方式與 ChatGPT 互動,” OpenAI 首席研究官 Mark Chen 説道。 OpenAI 特別強調,這些個性經過特別調整,以避免在對用户問題和輸入的讚美中變得過於諂媚。 ### 可用性 OpenAI 的 GPT-5 系列模型現在在 ChatGPT 上可供免費、Plus 和 Pro 用户使用,並將在下週向企業和教育用户推出。 ChatGPT 的定價保持不變,Plus 層每月 20 美元,無限制 Pro 層每月 200 美元。 專業人士還可以選擇通過 API 訪問這些模型。完整定價,包括每次輸入、輸出和緩存令牌的費用,可以在此處找到。 如果你不想為 ChatGPT 付費,本週早些時候,OpenAI 發佈了自 GPT-2 以來的首個開放權重模型。 **腳註:** 本週還發布了 Anthropic 的 Claude Opus 4.1,這是該模型的更新版本,在編碼基準測試中顯示出類似的迭代改進。® ### Related Stocks - [OpenAI.NA - OpenAI](https://longbridge.com/zh-HK/quote/OpenAI.NA.md) ## Related News & Research | Title | Description | URL | |-------|-------------|-----| | 20:44 ETGenFlux Raises $4.2M as Brands Race to Own the AI Answer | GenFlux has raised $4.2 million in seed funding, led by Symbolic Capital, to help brands optimize their visibility in AI | [Link](https://longbridge.com/zh-HK/news/275536232.md) | | OpenAI says starting to roll out a test for ads in ChatGPT today to a subset of free and Go users in the U.S. | OpenAI says starting to roll out a test for ads in ChatGPT today to a subset of free and Go users in the U.S. | [Link](https://longbridge.com/zh-HK/news/275355173.md) | | Codeifai Enters AI-Backed Quantum Security Market | Codeifai Ltd :CODEIFAI ENTERS AI-BACKED QUANTUM SECURITY MARKETCOMPLETION OF ACQUISITION OF ANTENNATRANSFER.IOTOTAL CONS | [Link](https://longbridge.com/zh-HK/news/276015719.md) | | OpenAI Warns Congress on DeepSeek Distillation Tactics | OpenAI has alerted US lawmakers about its Chinese competitor DeepSeek, which may be employing advanced distillation tact | [Link](https://longbridge.com/zh-HK/news/275935776.md) | | ICICI Securities Reaffirms Their Buy Rating on Aurobindo Pharma Ltd (AUROPHARMA) | In a report released today, from ICICI Securities maintained a Buy rating on Aurobindo Pharma Ltd, with a price target o | [Link](https://longbridge.com/zh-HK/news/276010991.md) | --- > **免責聲明**:本文內容僅供參考,不構成任何投資建議。