--- title: "OpenAI 的 GPT-5 已经发布,幻觉现象减少了多达 80%" description: "OpenAI 推出了其最先进的模型 GPT-5,声称其幻觉现象减少了多达 80%,并在编码、写作、数学和视觉感知方面表现得到了改善。该模型具有一个路由系统,根据复杂性将提示引导到适当的版本。虽然 GPT-5 在其前身的基础上显示出逐步改进,但在工具使用和健康相关查询方面表现出色。OpenAI 强调,尽管在基准测试中仅有边际提升,GPT-5 的设计旨在提升用户体验,特别是在医疗保健领域" type: "news" locale: "zh-CN" url: "https://longbridge.com/zh-CN/news/252266692.md" published_at: "2025-08-08T15:42:27.000Z" --- # OpenAI 的 GPT-5 已经发布,幻觉现象减少了多达 80% > OpenAI 推出了其最先进的模型 GPT-5,声称其幻觉现象减少了多达 80%,并在编码、写作、数学和视觉感知方面表现得到了改善。该模型具有一个路由系统,根据复杂性将提示引导到适当的版本。虽然 GPT-5 在其前身的基础上显示出逐步改进,但在工具使用和健康相关查询方面表现出色。OpenAI 强调,尽管在基准测试中仅有边际提升,GPT-5 的设计旨在提升用户体验,特别是在医疗保健领域 OpenAI 在周四推出了其迄今为止最强大的模型 GPT-5。 AI 宣传者兼 OpenAI 首席执行官 Sam Altman 将其形容为像与您自己的个人专家对话,可以按需编写应用程序。他表示:“我们认为这种按需软件的理念将成为 GPT-5 时代的一个定义特征。” 他开启了一场超过 75 分钟的演示,内容充满了代码演示。 与早期模型相比,OpenAI 表示 GPT-5 在编码、写作、数学和视觉感知方面都有所提升,同时减少了幻觉和欺骗行为。 Youtube 视频 需要明确的是,GPT-5 并不是一个模型。它实际上是一个模型集合,OpenAI 将根据用户意图或请求的一般复杂性等信号来路由提示。 根据 OpenAI 的说法,简单的提示可能会被路由到一个小而高效的模型版本,该版本可以快速响应而无需 “思考”,而一个更大、更深的推理模型可能会用于处理更复杂或更微妙的任务。这个能力是根据用户提示自动触发的。付费用户如果愿意,还可以选择永久开启推理功能。 这个路由模型显然正在不断根据新的输入信号进行训练,以使其更智能地决定将请求路由到哪个模型以及何时触发推理功能。然而,OpenAI 表示,最终计划将所有模型整合为一个单一模型。 除了速度更快,OpenAI 表示这种架构比之前的设计更高效。 “GPT-5 在较少的思考时间内获得更多价值。在我们的评估中,GPT-5——经过思考——在能力方面的表现优于 OpenAI o3,输出令牌减少了 50-80%,包括视觉推理、代理编码和研究生级科学问题解决,” 该公司在一篇博客文章中写道。 ChatGPT 的免费和 Plus 用户将可以访问 GPT-5 和 GPT-5 mini,而 Pro 和 Enterprise 用户将可以访问一个 Pro 变体,该变体可以进行更长时间的推理。通过 API 访问模型的用户还将以较低的成本访问 Nano 版本,以及标准和 mini 模型。 ### 革命性升级还是被夸大的迭代 虽然 OpenAI 的演示充满了关于 GPT-5 是其有史以来最聪明模型的夸张说法和演示,但公司的基准结果却讲述了一个略有不同的故事,主要是迭代改进。 你的眼睛没有欺骗你。GPT-5 在数学基准如 AIME 2025 中仅显示出迭代改进 - 点击放大 在 AIME 2025 数学基准中,GPT-5 Pro 在使用工具时比公司的前旗舰 o3 模型领先 1.6 分,而在不使用工具时领先 7.8 分。也就是说,对于免费用户,新模型相较于 GPT4o 是一个相当大的升级,GPT 5(非 Pro)获得了 57.5 分的优势。在 FrontierMath 和 HMMT 数学基准中也是类似的情况。 GPT-5 在 GPQA Diamond 基准中也显示出与 o3 相似的微小增益 - 点击放大 同样,在 GPQA Diamond(一个博士级科学测验)和人类最后的考试中观察到了迭代性能提升。在几乎每个基准套件中,GPT-5 相较于上一代模型仅获得了个位数的领先。 与 o3 相比,GPT-5 在工具使用和指令遵循方面更为熟练 - 点击放大 最明显的亮点之一是在 Tau2-bench 中,这是一个对话代理基准,GPT-5 在工具调用和指令遵循方面的改进得到了充分展示。 “基准测试是令人兴奋的数字,但我们开始饱和它们,就像在某些基准中从 98% 移动到 99% 时,这意味着你需要其他东西来真正捕捉模型的伟大,” OpenAI 总裁 Greg Brockman 承认。 这无疑是为什么演示中有如此多的时间用于演示和证言。说到这一点,Altman 特别兴奋的一个能力是 GPT-5 在健康相关查询中的表现。 “ChatGPT 的一个主要用例是健康。人们经常使用它。你们都见过人们获得日常护理建议或有时甚至是救命诊断的例子,” Altman 说。“GPT-5 是健康领域有史以来最好的模型。它使您能够更好地掌控您的医疗旅程。” 显然,ChatGPT 已经取代了 WebMD 进行自我诊断。 在一次证言中,该公司似乎在建议用户在理解健康状况时,只需将医疗文件上传到 ChatGPT,让 GPT-5 来解决。Altman 刚才说的关于向 ChatGPT 提供敏感信息的事情是什么? ### OpenAI 屏蔽声音 虽然 GPT-5 的基准增益充其量是微不足道的,但这些模型应该不太容易产生幻觉,这已成为模型为了满足用户请求而虚构令人信服的信息的主要问题。在我们本周的测试中,OpenAI(规模更小、能力更弱)的开源模型产生了一个虚构的总统候选人,该候选人在 2024 年被唐纳德·特朗普击败。 “GPT-5 的响应中包含事实错误的可能性比 GPT-4o 低约 45%,而在思考时,GPT-5 的响应中包含事实错误的可能性比 OpenAI o3 低约 80%,” 该公司在一篇博客文章中表示。 除了减少幻觉,OpenAI 还实施了评估,以测试模型是否存在欺骗行为。 “为了在训练期间获得高奖励,推理模型可能会学会谎称成功完成任务或对不确定的答案过于自信,” 该公司解释道。“GPT-5 更准确地识别何时无法完成任务,并清晰地传达其限制。” 在对真实世界聊天数据的测试中,OpenAI 表示它能够将 o3 上的欺骗率从 4.8% 降低到推理响应中的 2.1%。 与此同时,在安全性方面,OpenAI 实施了新措施来处理可能存在疑问的敏感话题提示。与可以通过巧妙的提示工程绕过的护栏不同,该模型表示 GPT-5 现在将提供尽可能完整的响应,同时保持在可接受的安全边际内。 例如,模型可能不会拒绝回答有关如何点燃潜在爆炸性化合物的问题,而是可能会引导用户找到相关信息,并在响应请求时发出警告。 ### ChatGPT 获得个性化或四种个性 随着新模型的推出,OpenAI 还推出了四种新的可选个性,以便用户可以决定他们希望 AI 助手的专业程度或前卫程度。 在发布时,将提供四种个性:愤世嫉俗者、机器人、倾听者和书呆子。模型构建者指出,这些个性是可选择的,目前仅限于文本聊天,独特的语音能力将在后续推出。 “这让你可以以与你自己的沟通风格一致的方式与 ChatGPT 互动,” OpenAI 首席研究官 Mark Chen 说道。 OpenAI 特别强调,这些个性经过特别调整,以避免在对用户问题和输入的赞美中变得过于谄媚。 ### 可用性 OpenAI 的 GPT-5 系列模型现在在 ChatGPT 上可供免费、Plus 和 Pro 用户使用,并将在下周向企业和教育用户推出。 ChatGPT 的定价保持不变,Plus 层每月 20 美元,无限制 Pro 层每月 200 美元。 专业人士还可以选择通过 API 访问这些模型。完整定价,包括每次输入、输出和缓存令牌的费用,可以在此处找到。 如果你不想为 ChatGPT 付费,本周早些时候,OpenAI 发布了自 GPT-2 以来的首个开放权重模型。 **脚注:** 本周还发布了 Anthropic 的 Claude Opus 4.1,这是该模型的更新版本,在编码基准测试中显示出类似的迭代改进。® ### Related Stocks - [OpenAI.NA - OpenAI](https://longbridge.com/zh-CN/quote/OpenAI.NA.md) ## Related News & Research | Title | Description | URL | |-------|-------------|-----| | 20:44 ETGenFlux Raises $4.2M as Brands Race to Own the AI Answer | GenFlux has raised $4.2 million in seed funding, led by Symbolic Capital, to help brands optimize their visibility in AI | [Link](https://longbridge.com/zh-CN/news/275536232.md) | | OpenAI says starting to roll out a test for ads in ChatGPT today to a subset of free and Go users in the U.S. | OpenAI says starting to roll out a test for ads in ChatGPT today to a subset of free and Go users in the U.S. | [Link](https://longbridge.com/zh-CN/news/275355173.md) | | OpenAI Warns Congress on DeepSeek Distillation Tactics | OpenAI has alerted US lawmakers about its Chinese competitor DeepSeek, which may be employing advanced distillation tact | [Link](https://longbridge.com/zh-CN/news/275935776.md) | | Towa Pharmaceutical (TSE:4553) Margin Firmness Reinforces Defensive Earnings Narrative In Q3 2026 | Towa Pharmaceutical (TSE:4553) reported solid Q3 2026 results with revenue of ¥73.6b and net income of ¥8.9b, reflecting | [Link](https://longbridge.com/zh-CN/news/275991027.md) | | Haypp Group (OM:HAYPP) Margin At 1.6% Tests Bullish Earnings Narratives | Haypp Group (OM:HAYPP) reported Q3 2025 revenue of SEK 962.6 million and EPS of SEK 0.15, with a trailing twelve-month r | [Link](https://longbridge.com/zh-CN/news/275991264.md) | --- > **免责声明**:本文内容仅供参考,不构成任何投资建议。