---
title: "OpenAI 的 GPT-5 已经发布，幻觉现象减少了多达 80%"
description: "OpenAI 推出了其最先进的模型 GPT-5，声称其幻觉现象减少了多达 80%，并在编码、写作、数学和视觉感知方面表现得到了改善。该模型具有一个路由系统，根据复杂性将提示引导到适当的版本。虽然 GPT-5 在其前身的基础上显示出逐步改进，但在工具使用和健康相关查询方面表现出色。OpenAI 强调，尽管在基准测试中仅有边际提升，GPT-5 的设计旨在提升用户体验，特别是在医疗保健领域"
type: "news"
locale: "zh-CN"
url: "https://longbridge.com/zh-CN/news/252266692.md"
published_at: "2025-08-08T15:42:27.000Z"
---

# OpenAI 的 GPT-5 已经发布，幻觉现象减少了多达 80%

> OpenAI 推出了其最先进的模型 GPT-5，声称其幻觉现象减少了多达 80%，并在编码、写作、数学和视觉感知方面表现得到了改善。该模型具有一个路由系统，根据复杂性将提示引导到适当的版本。虽然 GPT-5 在其前身的基础上显示出逐步改进，但在工具使用和健康相关查询方面表现出色。OpenAI 强调，尽管在基准测试中仅有边际提升，GPT-5 的设计旨在提升用户体验，特别是在医疗保健领域

OpenAI 在周四推出了其迄今为止最强大的模型 GPT-5。

AI 宣传者兼 OpenAI 首席执行官 Sam Altman 将其形容为像与您自己的个人专家对话，可以按需编写应用程序。他表示：“我们认为这种按需软件的理念将成为 GPT-5 时代的一个定义特征。” 他开启了一场超过 75 分钟的演示，内容充满了代码演示。

与早期模型相比，OpenAI 表示 GPT-5 在编码、写作、数学和视觉感知方面都有所提升，同时减少了幻觉和欺骗行为。

Youtube 视频

需要明确的是，GPT-5 并不是一个模型。它实际上是一个模型集合，OpenAI 将根据用户意图或请求的一般复杂性等信号来路由提示。

根据 OpenAI 的说法，简单的提示可能会被路由到一个小而高效的模型版本，该版本可以快速响应而无需 “思考”，而一个更大、更深的推理模型可能会用于处理更复杂或更微妙的任务。这个能力是根据用户提示自动触发的。付费用户如果愿意，还可以选择永久开启推理功能。

这个路由模型显然正在不断根据新的输入信号进行训练，以使其更智能地决定将请求路由到哪个模型以及何时触发推理功能。然而，OpenAI 表示，最终计划将所有模型整合为一个单一模型。

除了速度更快，OpenAI 表示这种架构比之前的设计更高效。

“GPT-5 在较少的思考时间内获得更多价值。在我们的评估中，GPT-5——经过思考——在能力方面的表现优于 OpenAI o3，输出令牌减少了 50-80%，包括视觉推理、代理编码和研究生级科学问题解决，” 该公司在一篇博客文章中写道。

ChatGPT 的免费和 Plus 用户将可以访问 GPT-5 和 GPT-5 mini，而 Pro 和 Enterprise 用户将可以访问一个 Pro 变体，该变体可以进行更长时间的推理。通过 API 访问模型的用户还将以较低的成本访问 Nano 版本，以及标准和 mini 模型。

### 革命性升级还是被夸大的迭代

虽然 OpenAI 的演示充满了关于 GPT-5 是其有史以来最聪明模型的夸张说法和演示，但公司的基准结果却讲述了一个略有不同的故事，主要是迭代改进。

你的眼睛没有欺骗你。GPT-5 在数学基准如 AIME 2025 中仅显示出迭代改进 - 点击放大

在 AIME 2025 数学基准中，GPT-5 Pro 在使用工具时比公司的前旗舰 o3 模型领先 1.6 分，而在不使用工具时领先 7.8 分。也就是说，对于免费用户，新模型相较于 GPT4o 是一个相当大的升级，GPT 5（非 Pro）获得了 57.5 分的优势。在 FrontierMath 和 HMMT 数学基准中也是类似的情况。

GPT-5 在 GPQA Diamond 基准中也显示出与 o3 相似的微小增益 - 点击放大

同样，在 GPQA Diamond（一个博士级科学测验）和人类最后的考试中观察到了迭代性能提升。在几乎每个基准套件中，GPT-5 相较于上一代模型仅获得了个位数的领先。

与 o3 相比，GPT-5 在工具使用和指令遵循方面更为熟练 - 点击放大

最明显的亮点之一是在 Tau2-bench 中，这是一个对话代理基准，GPT-5 在工具调用和指令遵循方面的改进得到了充分展示。

“基准测试是令人兴奋的数字，但我们开始饱和它们，就像在某些基准中从 98% 移动到 99% 时，这意味着你需要其他东西来真正捕捉模型的伟大，” OpenAI 总裁 Greg Brockman 承认。

这无疑是为什么演示中有如此多的时间用于演示和证言。说到这一点，Altman 特别兴奋的一个能力是 GPT-5 在健康相关查询中的表现。

“ChatGPT 的一个主要用例是健康。人们经常使用它。你们都见过人们获得日常护理建议或有时甚至是救命诊断的例子，” Altman 说。“GPT-5 是健康领域有史以来最好的模型。它使您能够更好地掌控您的医疗旅程。”

显然，ChatGPT 已经取代了 WebMD 进行自我诊断。

在一次证言中，该公司似乎在建议用户在理解健康状况时，只需将医疗文件上传到 ChatGPT，让 GPT-5 来解决。Altman 刚才说的关于向 ChatGPT 提供敏感信息的事情是什么？

### OpenAI 屏蔽声音

虽然 GPT-5 的基准增益充其量是微不足道的，但这些模型应该不太容易产生幻觉，这已成为模型为了满足用户请求而虚构令人信服的信息的主要问题。在我们本周的测试中，OpenAI（规模更小、能力更弱）的开源模型产生了一个虚构的总统候选人，该候选人在 2024 年被唐纳德·特朗普击败。

“GPT-5 的响应中包含事实错误的可能性比 GPT-4o 低约 45%，而在思考时，GPT-5 的响应中包含事实错误的可能性比 OpenAI o3 低约 80%，” 该公司在一篇博客文章中表示。

除了减少幻觉，OpenAI 还实施了评估，以测试模型是否存在欺骗行为。

“为了在训练期间获得高奖励，推理模型可能会学会谎称成功完成任务或对不确定的答案过于自信，” 该公司解释道。“GPT-5 更准确地识别何时无法完成任务，并清晰地传达其限制。”

在对真实世界聊天数据的测试中，OpenAI 表示它能够将 o3 上的欺骗率从 4.8% 降低到推理响应中的 2.1%。

与此同时，在安全性方面，OpenAI 实施了新措施来处理可能存在疑问的敏感话题提示。与可以通过巧妙的提示工程绕过的护栏不同，该模型表示 GPT-5 现在将提供尽可能完整的响应，同时保持在可接受的安全边际内。

例如，模型可能不会拒绝回答有关如何点燃潜在爆炸性化合物的问题，而是可能会引导用户找到相关信息，并在响应请求时发出警告。

### ChatGPT 获得个性化或四种个性

随着新模型的推出，OpenAI 还推出了四种新的可选个性，以便用户可以决定他们希望 AI 助手的专业程度或前卫程度。

在发布时，将提供四种个性：愤世嫉俗者、机器人、倾听者和书呆子。模型构建者指出，这些个性是可选择的，目前仅限于文本聊天，独特的语音能力将在后续推出。

“这让你可以以与你自己的沟通风格一致的方式与 ChatGPT 互动，” OpenAI 首席研究官 Mark Chen 说道。

OpenAI 特别强调，这些个性经过特别调整，以避免在对用户问题和输入的赞美中变得过于谄媚。

### 可用性

OpenAI 的 GPT-5 系列模型现在在 ChatGPT 上可供免费、Plus 和 Pro 用户使用，并将在下周向企业和教育用户推出。

ChatGPT 的定价保持不变，Plus 层每月 20 美元，无限制 Pro 层每月 200 美元。

专业人士还可以选择通过 API 访问这些模型。完整定价，包括每次输入、输出和缓存令牌的费用，可以在此处找到。

如果你不想为 ChatGPT 付费，本周早些时候，OpenAI 发布了自 GPT-2 以来的首个开放权重模型。

**脚注：**

本周还发布了 Anthropic 的 Claude Opus 4.1，这是该模型的更新版本，在编码基准测试中显示出类似的迭代改进。®

### Related Stocks

- [OpenAI.NA - OpenAI](https://longbridge.com/zh-CN/quote/OpenAI.NA.md)

## Related News & Research

| Title | Description | URL |
|-------|-------------|-----|
| 20:44 ETGenFlux Raises $4.2M as Brands Race to Own the AI Answer | GenFlux has raised $4.2 million in seed funding, led by Symbolic Capital, to help brands optimize their visibility in AI | [Link](https://longbridge.com/zh-CN/news/275536232.md) |
| OpenAI says starting to roll out a test for ads in ChatGPT today to a subset of free and Go users in the U.S. | OpenAI says starting to roll out a test for ads in ChatGPT today to a subset of free and Go users in the U.S. | [Link](https://longbridge.com/zh-CN/news/275355173.md) |
| OpenAI Warns Congress on DeepSeek Distillation Tactics | OpenAI has alerted US lawmakers about its Chinese competitor DeepSeek, which may be employing advanced distillation tact | [Link](https://longbridge.com/zh-CN/news/275935776.md) |
| Towa Pharmaceutical (TSE:4553) Margin Firmness Reinforces Defensive Earnings Narrative In Q3 2026 | Towa Pharmaceutical (TSE:4553) reported solid Q3 2026 results with revenue of ¥73.6b and net income of ¥8.9b, reflecting | [Link](https://longbridge.com/zh-CN/news/275991027.md) |
| Haypp Group (OM:HAYPP) Margin At 1.6% Tests Bullish Earnings Narratives | Haypp Group (OM:HAYPP) reported Q3 2025 revenue of SEK 962.6 million and EPS of SEK 0.15, with a trailing twelve-month r | [Link](https://longbridge.com/zh-CN/news/275991264.md) |

---

> **免责声明**：本文内容仅供参考，不构成任何投资建议。