--- title: "一文读懂 GPT-5 发布会|价格屠夫、编程惊艳,新功能乏善可陈" description: "在 8 月 8 日的发布会上,OpenAI 推出了 GPT-5,尽管与前几代相比显得平淡,但仍有进步,如极低的幻觉率和增强的上下文能力。GPT-5 的 API 价格仅为 Claude Opus 4.1 的 1/15,具有竞争力。GPT-5 分为多个版本,包括 GPT-5、GPT-5 mini、GPT-5 nano 和 GPT-5 Pro,后者为企业用户提供更强算力和并行计算能力。" type: "news" locale: "zh-CN" url: "https://longbridge.com/zh-CN/news/252125994.md" published_at: "2025-08-08T00:20:37.000Z" --- # 一文读懂 GPT-5 发布会|价格屠夫、编程惊艳,新功能乏善可陈 > 在 8 月 8 日的发布会上,OpenAI 推出了 GPT-5,尽管与前几代相比显得平淡,但仍有进步,如极低的幻觉率和增强的上下文能力。GPT-5 的 API 价格仅为 Claude Opus 4.1 的 1/15,具有竞争力。GPT-5 分为多个版本,包括 GPT-5、GPT-5 mini、GPT-5 nano 和 GPT-5 Pro,后者为企业用户提供更强算力和并行计算能力。 北京时间 8 月 8 日凌晨 1 点的发布会上,GPT-5 总算在万众期待中姗姗而至,此时,距离 GPT-4 的发布已过去了两年半。 但这一次,比起 ChatGPT 的惊艳亮相、GPT-4 的跨越式升级、o1 发布时的震撼全场,这场发布会显得格外平淡:不太惊艳的 Benchmark,毫无新范式的影子;很难激起兴趣以及看出与竞品区别的用例展示;甚至还有被网友抓包的 PPT 展示错误,共同构成了这 1 小时 20 分钟的发布会。 但这并不意味着 GPT-5 没有进步。极低的幻觉率、前端能力的加强、上下文能力的跃升和极为有竞争力的价格,都是这次难得的亮点。 尤其是价格,在 GPT-5 精彩的编程表现之下,其 API 价格仅为昨天发布的 Claude Opus 4.1 的 1/15,也比 Gemini 2.5 Pro 价格低。 这可以说是对 Anthropic 的致命一击。 今天凌晨的 OpenAI,虽失去了魔法的节奏、但依然在和其他厂商的肉搏中站稳了脚跟。 ## GPT-5 本体:有限的升级、微末的 SOTA 本次 GPT-5 共有 4 个版本,分为 GPT-5 、 GPT-5 mini、 GPT-5 nano,以及只对企业版和每月 200 美元高级版开放的 GPT-5 Pro 模式。 对于一般用户而言,默认的是统一模型 GPT-5,它是由多个模型组成的系统,包括用于大多数问题的 “智能且快速” 模型(GPT-5-main)和用于更复杂问题的 “更深层推理” 模型(GPT-5-thinking)。 这种统一的实现,是由一个实时路由器决定针对特定查询使用哪个模型。 mini、nano 的具体选择则是 API 用户可选。而 GPT-5 Pro 模式,则类似于 Grok 4 Hard 模式,使用了并行测试计算,一次多个模型一起并行计算更长时间。它用更大的算力,提供了最全面、最精准的答案。在超高难度的科学问题(GPQA)上,它刷新了世界纪录。在与人类专家的「盲测」中,10 次里有近 7 次被认为更优。 而在能力和评分上,GPT-5 几乎在每一项上都有提升,但都只比当下 SOTA 高了一点点,也只比 o3 强得很有限。 ## 智力水平:体验最佳,但不是智力最佳 在智力的水平,各种主流评测集里,GPT-5 都高于 o3 水平,但整体差距没有非常大。 细拆下来,其中提升最明显的前沿数学测试集里,我们能看到,GPT-5 的效果还不如 ChatGPT Agent,只有使用 Pro 模式下才会更强。 当与其他模型做比较时,我们就能发现,GPT-5 大多数 “智力” 能力仅仅稍微高出竞争对手一点,部分能力甚至还并非 SOTA,只能说整体以微小幅度领先。很难说是什么跨越式的能力提升。 综合来看,根据 Artificial Analysis 的排名,GPT-5 目前领先第一,但综合分仅比 o3 高了两分、比 Grok 4 仅高一分。 另一个显示出 GPT-5 能力不及预期的是 Arc Prize 的测试,在这个号称是 AGI 终极测试中,GPT-5 不敌 Grok 4,而且是远远落后。 不过从这里我们也能看到,相对于 o3,GPT-5 在计算效率上确实有所提高,能以更少的 token 消耗,获得超过 o3 的效果,其效率也领先于 Anthropic 的模型。 根据 OpenAI 的介绍,GPT-5 thinking 在解决复杂问题时,使用的 token 数量可以减少了 50%-80%。 这引得马斯克都激动的发推。 最近,Grok 在 AI 国际象棋大赛上披荆斩棘,这次又压了 OpenAI 一头,感觉这个发布会过后,Grok 反而获利最大。 不过在用户体验上,GPT-5 扳回一城。 在 LMArena 这个主要由用户双盲比较不同模型优劣的排行榜上,GPT-5 在所有项目上都得到了第一名。 ## 编程:解决痛点,用 Agent 让 Vibe coding “省心” 而在本次 OpenAI 着重强调的编程领域,GPT-5 在 thinking(思考)模式下,也较前代有比较明显的提升。 但同样,如果把一直强调编程的竞争对手 Anthropic 最新的 Claude 4.1 Opus 也算进来,优势又极其微小了。两者仅有 0.3% 的分差。 虽然在整体编程基准上,GPT-5 的表现并不特别突出,但 OpenAI 确实在编程实际体验上做出了很多优化。发布会上,OpenAI 介绍了编程的几个重要提升,主要体现在对编程要求的理解、对错误的改正能力和更多工具使用能力上。 这主要是归功于智能体式编码(Agentic Coding)系统的成熟。GPT-5 擅长处理 “智能体式” 编码任务,可以调用多种工具,连续工作数分钟甚至更长时间来完成一个复杂的指令。 模型在编码时甚至会主动沟通,解释它的计划、步骤和发现,像一个协作的团队一样行动。 为了实现这种类似协作伙伴的行为,OpenAI 的团队专门针对几个特性对模型进行了微调,提升了包括自主性(autonomy)、协作与沟通(collaboration and communication)、以及测试(testing)的能力。 编程要求的理解和指令遵循上的提升,让 GPT-5 能将模糊或详细的指令转化为实际可用的代码,帮助让即使不懂编程的人也能实现他们的想法。 推特上的部分用户也有相应的反馈。 而工具调用能力,经过 OpenAI 的特别微调后,也凸显出来了。 这一点在 Tau 这个测试集中表现明显。它是用来评估一个 AI 模型在模拟真实世界场景中,与用户进行动态对话,并有效使用外部工具(即 API 或函数调用)来完成任务能力的测试集。在电信领域,它的能力提升明显。 另一个非常重要的更新是 “修 Bug” 能力的大幅提升。 在演示中,GPT-5 能够深入一个真实的代码库(OpenAI Python SDK),通过搜索和读取文件来理解代码的结构和逻辑,并最终定位到问题的根源。它甚至能理解人类工程师做出某些架构决策的深层原因,例如为了加强安全性。 而且它还可以自动修复自己的 bug。在演示一个前端应用开发任务时,GPT-5 在编写完代码后,会自己尝试构建(build)项目。当构建过程中出现错误时,它能将这些错误信息反馈给自己,然后基于这些错误来修改和迭代自己的代码。这被 OpenAI 的演示人员描述为一个 “深刻的时刻” 和一个 “自我改进的循环”。 在修复特定 bug 的过程中,模型也表现出了很高的智能。例如,它在运行代码检查(lints)时发现了其他一些问题,但它能判断出这些问题与当前要修复的 bug 无关,因此不会进行不必要的修改。 这一点对于当下的 vibe coding 而言十分重要。在今年的一篇论文中就曾提到一个反直觉的事实:用 AI 辅助编程反而可能会降低工作效率,而非提升。这其中最主要的原因是,日常程序员所面对的往往并非一个全新项目,而是要在一堆旧代码上迭代。 因此,如果没有对于复杂程序的的整体把握以及自我 bug 修复功能的话,AI 编程在这类项目上的能力就会大受限制。 可见,这次 OpenAI 真是在编程上用上了产品经理的心思,针对痛点做了大幅调整和升级。在沃顿商学院教授 Ethan Mollick 的测试中,他也体验到了 GPT-5 编程 “让人省心” 的特点。 (Ethan Mollick 的博客文章) GPT-5 在编程上的另一个提升点是前端能力。现场展示中,OpenAI 的研究员让 GPT-5 现场生成了一系列的内容,包括飞机空气动力学动态展示。 这一内容足足有 400 行代码,GPT-5 写了 2 分钟。 还有一个教法语的贪吃蛇游戏,整体表现都很不错。 ## 多模态:仍然是短板 之前在各种泄露中被广泛认为会大幅提升的多模态能力方面,GPT-5 的提升也并不太显著。 而且与 Gemini 这种大一统模型不同,GPT-5 仍然是一个主要能进行文字和图像理解的模型。当下,它仍然不支持音频输入/输出和图像生成,视频就更别说了。 想短期内能追上刚发布的 Genie 3,看起来对 OpenAI 来说还是太难了。 ## 一些惊喜:超低幻觉、上下文大跃进 虽然综合实力并不惊艳,只能说勉强保住了第一的位置。 但在一些小的方面,GPT-5 的提升确实非常可圈可点。而且这些小的方面,也许能起到决定性的作用。 首先是幻觉和安全。GPT-5 显著减少了幻觉的发生,它出现事实错误的概率比 GPT-4o 低约 45%,比 OpenAI o3 低约 80%。 这是个相当了不起的成就。仅有不到 1% 的幻觉率,这对于实际落地应用来讲极其重要,在工业环境以及实际工作环境中,幻觉都是致命的。 所以,也难怪 OpenAI 的核心研究员 Noam Brown 把针对发布会的唯一评论,献给了 GPT-5 在消除幻觉上的进步。 GPT-5 在 System Card 中简要地提到了他们使用的大概方法。 他们一方面强化训练模型能够有效地使用浏览工具来获取最新的信息。另外,当模型不使用浏览工具,而是依赖其自身的内部知识时,训练的重点是减少在这种情况下产生的幻觉。 更底层的原因,可能是 GPT5 thinking 经历的强化学习训练。在这些训练里,OpenAI 似乎利用了一些最新的训练方法,让这些模型学会了 “完善自己的思考过程,尝试不同的策略,并认识到自己的错误”。 也正是因为这个训练模式,GPT-5 模型的 “欺骗” 行为也大幅减少,部分维度上居然可以减少近 90%。(欺骗:在这里指的是模型可能会向用户谎报其行为,或者在任务无法完成、信息不足的情况下悄悄地不执行任务。这也和幻觉的下降直接相关。) 另一个非常重要的进步是上下文能力。 首先,所有的 GPT-5 版本目前支持的上下文都拓展到了 400k,远超 o3、4o 的 128k 默认版本上下文。虽然赶不上 Gemini 1M 的上下文量,但相比于其他对手也已经算是领先一步了。 而且从测试上看,上下文的精准度提升堪称飞跃。大海捞针测试里,GPT-5 的准确率比 o3 提升了将近一倍。这意味着 GPT-5 处理长文本的能力会有比较明显的强化。这对于需要处理复杂任务的编程、写作、分析都影响颇大。 这两点特别的小点,虽然不能提升 GPT-5 的综合智力,但可能会给 GPT-5 带来护城河式的优秀体验。 ## 新功能:乏善可陈 如果说能力项上,我们还是可以在编程和幻觉上找到些许亮点,那 GPT-5 的新功能基本就只能说食之无味了。 首先是写作上的优化。OpenAI 在演示中表示,与之前的模型相比,GPT-5 在写作质量上有显著提升,能更好地帮助用户润色草稿、邮件乃至故事。 最重要的是,GPT-5 更有人味儿,更少 AI 味儿。它生成的回应更有节奏感和韵律感,语言更真诚、更能引起情感共鸣。而且因为整体能力的提升,它能更好地理解情境的细微差别,让回应感觉不那么像 AI。 然而,在演示过程中,这个其实很不直观。就像前两天奥特曼秀出 GPT-5 推荐的电影时候,大家看不太出来和 4o 有什么大的区别。 然后是语音功能。GPT-5 的声音听起来极其自然,就像和真人对话。它还新增了视频输入功能,可以让语音助手看到你所看到的东西。这基本属于标配,现场感觉还是 Grok 4 的超高语音回应速度更让人印象深刻。 记忆能力升级。虽然 OpenAI 在发布会上提到了对记忆功能进行了大量增强,但实际演示来看只是推出了与 Gmail 和 Google Calendar 的集成功能,允许 ChatGPT 访问用户的邮件和日历来帮助规划日程。也是一种未来标配的水平,而且和 “记忆” 关联性并不强。 最后是个性化功能:现在 GPT-5 允许用户自定义聊天界面的颜色了。它不禁让人想到,当一个前沿技术公司开始整这些花活儿的时候,这只能说明,它真的没有别的可展示了。 ## 回应数据瓶颈质疑:左脚踩右脚,还是有效的 在之前 Information 的爆料中,GPT-5 开发失速的主要原因之一,就是数据瓶颈。对此,OpenAI 发布会上也给了一个解释。 他们揭示了在 GPT-5 的训练中,OpenAI 试验了新的训练技术,让模型可以利用前一代模型创造数据。与填充型的数据不同,OpenAI 专注生成的是 “正确类型的数据”,其目的在于 “教导” 模型。他们利用其模型打造了一个高品质的 “合成流程”,生成了以教导 GPT-5 的复杂数据。 而且他们这种跨代模型间的互动预示着一个递归式的改进循环,即前一代模型越来越多地帮助改善和生成下一代模型的训练数据。 也就是在 o1 模型推出时,大家一直猜想的由推理模型产生高质量数据,让预训练模型越来越强,再由此通过强化学习加强下一代推理模型的 “左脚踩右脚” 式训练方法,被 OpenAI 证实了。 不过从效果上看,这个方法明显 Scaling 的不那么有效。数据的困境,还没有被完全解决。 ## 价格:绝对的杀招 如果说 GPT-5 的性能提升不尽人意,至少在价格上,它做到了皆大欢喜。 首先是对 C 端用户,免费用户也可以使用 GPT-5,但有使用次数限制,这个限额也相当慷慨,每天可以聊 “几个小时”。当达到上限后,会自动切换到 GPT-5 mini 模型。而对于 Plus 用户,将拥有比免费用户 “高得多” 的使用额度 ,基本满足日常应用。 而对与 API 用户来讲,GPT-5 几乎给出了一个难以拒绝的价格。每百万 token 输入 1.25 美元,输出 10 美元。 这个价格比起 GPT 4o 还要便宜。甚至比一直以 “低价” 著称的 Gemini 2.5 Pro 都更便宜。而 mini 和 nano 的价格,也都低于主要竞争对手的同等级模型。 如果 GPT-5 的编程能力确实如测试般强大,那对于价格高出 15 倍的 Anthropic 而言,将是毁灭性打击。 不过,谁能想到,一个一直以技术领先为核心定义的公司,居然开始打价格战了。这也是 OpenAI 这次发布会上实际上最大的亮点,也是最大的让人叹息之处。 先行者变得务实,也许才是技术快速发展期结束的最明显标志。 ## 发布会:灾难式的错误,不直观的展示 比起 GPT-5 的平平表现,这场长达 1 小时 20 分的发布会堪称灾难。 首先是发布会上的 “图表欺诈”。发布会刚开始没多久,眼尖的网友们就在发布会展示的 PPT 里发现,SWE Benchmark 数据被以不成比例的方式展示,以凸显 GPT-5 的提升。 这里的比例完全错误,很快网友就还原了一个真实比例。 而且这样的错误还不止一处。在 Tau 2 Benchmark 的展示中,同样出现了 55% 比 58.1% 大的情况。 针对这些致命错误,很快,网友们就开始了嘲讽的狂欢。比如拿 GPT 序号建表,来讽刺 OpenAI 的 “表格魔法”。 对于已经经历过 IMO 金牌风波,深陷在 “炒作大师” 印象中的 OpenAI 来说,这种错误简直就是火上浇油,更坐实了他们炒作、不可信的形象。 除此之外,这次的演示过程,只有最后用了 GPT-5 的 Cursor 生成的城堡小游戏稍微比较亮眼。其他的所有展示都冗长、过分专业、且效果平平。 对比 Anthropic 的让 Claude 运营自动售货机实验、Gemnini 的宝可梦通关展示 Agent 性能这些更有冲击力,更能展示前沿探索的发布会环节来讲,实在是缺乏看点。 而期间充斥的无聊的冷笑话、漫长的推理等待时间,更是让发布会的沉闷到了一种前所未有的水平。 如果说奥特曼是个营销大师,那这场发布会确实是名不副实了。 正是因为奥特曼在会前给出的 “GPT-5 比我都强” 的高期待,和发布会时平淡表现的反差。加上错误连连的问题,这次 OpenAI 明显被舆论反噬。据 Polymarkt 的调查,发布会后,大家对 OpenAI 的模型能力评价甚至都一路下滑。 ## 发布会背后,正在失速的 AI 行业 对于整个 AI 产业而言,这次发布会可能意味着一个阴影笼罩的未来。 从 GPT-4.5(Orion)项目的失败,我们已经看到了参数 Scaling Law 逐渐放缓的迹象。而用了十倍算力堆强化学习的 Grok-4 尽管在某些测试中表现亮眼,但整体上也没有展现出革命性的跨越,这暗示着 Test-Time Compute(TTC)Scaling Law 也开始见顶。 到今天,GPT-5“小步前进"式的常规进步。这似乎说明着低垂的果实已经摘完了。 那堵看不见的 AI 快速增长之墙,从未像今天这般明显。 这也许意味着,我们不得不从那个"指数级增长"的狂欢中清醒过来,迎接一个更加务实、更加竞争激烈的新阶段。也许 AI 行业真的需要一个新的突破,才能重回如梦如幻般的 AI 一代一个大跨越的节奏中去。 但突破何时到来、以何种形式到来,已经变得颇为难测。 能确定的只有 GPT-5,还远不是 AGI。 风险提示及免责条款 市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。 ### Related Stocks - [OpenAI.NA - OpenAI](https://longbridge.com/zh-CN/quote/OpenAI.NA.md) ## Related News & Research | Title | Description | URL | |-------|-------------|-----| | OpenAI 高管:工程师变成 “魔法师”,AI 将开启新一轮创业狂潮 | OpenAI 内部曝光:95% 工程师已用 AI 编程,代码审查全由 Codex 接管!负责人 Sherwin Wu 预言,未来两年模型将具备数小时长任务处理能力,工程师正变为指挥智能体的 “巫师”。随着模型吞噬中间层,为 “超级个体” 服 | [Link](https://longbridge.com/zh-CN/news/275998627.md) | | 为 AI 交易 “背书”!OpenAI 正敲定新一轮融资:以 8300 亿美元估值募资高达 1000 亿美元 | OpenAI 正以 8300 亿美元估值推进新一轮融资,目标筹集 1000 亿美元。软银拟领投 300 亿美元,亚马逊和英伟达可能各投 500 亿及 300 亿美元,微软拟投数十亿美元。本轮融资是 OpenAI 自去年秋季公司制改革以来的首 | [Link](https://longbridge.com/zh-CN/news/276298180.md) | | 每千次展示 60 美元!OpenAI 用高价拉开 “AI 广告” 大幕 | 为应对 AI 巨额开支,OpenAI 正式测试广告,CPM60 美元起步、最低投入 20 万美元,定位高端渠道,直接挑战谷歌万亿美元市场,WPP 等顶级代理已率先合作。但转型风险并存:需平衡用户信任,承诺不用私聊数据;对手 Anthropi | [Link](https://longbridge.com/zh-CN/news/275993077.md) | | 学习英伟达刺激芯片销售,AMD 为 “AI 云” 借款做担保 | AMD 为扩大市场份额祭出金融 “狠招”!为初创公司 Crusoe 的 3 亿美元购芯贷款提供担保,承诺在其无客户时 “兜底” 租用芯片。这一复刻英伟达 “租卡云” 路径的策略虽能短期推高销量,但也令 AMD 在 AI 需求放缓时面临更大的 | [Link](https://longbridge.com/zh-CN/news/276401504.md) | | 最高法裁决后特朗普动用替补选择:加征 10% 全球关税 | 美国总统特朗普在最高法院裁决后宣布将加征 10% 的全球关税,以补救被推翻的关税措施。根据《1974 年贸易法》第 122 条款,现有的关税将全面生效。最高法院裁定特朗普政府的部分关税措施缺乏法律授权。市场风险提示,投资需谨慎。 | [Link](https://longbridge.com/zh-CN/news/276477629.md) | --- > **免责声明**:本文内容仅供参考,不构成任何投资建议。