
一文回顾 OpenAI 系列发布会:从工具到 AGI,OpenAI 的 12 天进化论

前四天重磅推出 o1 正式版、Sora、Canvas,中间 “水” 了几天,最后一天直接甩出王炸——GPT-o3,一举打破 AI 发展陷入瓶颈的怀疑。
OpenAI 年末的 12 天连续 Devday 更新终于落幕,每天蹲守观看发布会都像在开巧克力盲盒,不知道下一个是什么口味。
在前 11 天的发布会中,大部分属实非常寡淡,只有三个产品还有些精彩的 “滋味”。
总结起来,能称得上重磅的更新包括:o1 正式版、Sora、Canvas,它们主要集中在前 4 天发布。
其中,o1 正式版确实提升很大,Sora 则是增加了不少对 AI 生成视频进行更改的产品模式,Canvas 可以被视为 OpenAI 第一次挑战 AI 工作台的产品尝试。
其次,相对还有些看点的是:和苹果的深度合作,视频通话功能,以及 o1-mini 的强化微调。
o1-mini 的强化微调在专业领域潜力很大,微调简单提升明显。视频通话功能则是那个让人惊艳的 “HER” 正式上线。和苹果的深度合作对 OpenAI 来讲也是件大事,更站稳了在 AI 行业的一哥地位。
另外一些小的产品更新则是让人觉得——“这也值得开发布会?”
这些产品包括 “Projects” 项目功能、o1 图像输入和 4o 高级语音 API 正式开放、ChatGPT Search 升级和给 GPT 打电话 的功能。它们都是相对比较小,也都和竞争对手没什么差异的更新。
到了最后一天,OpenAI 终于甩出一个王炸:GPT-o3。一举打破 AI 发展陷入瓶颈的怀疑,各项性能直奔 AGI 而去。
我们根据发布产品的重要性做了一个表格,梳理这过山车似的十二天发布日。
下面,我们来稍微详细地讲述一下这些更新的核心点。
重要产品更新
o1 完全版(Day1)
从能力上看,o1 确实比 Preview 版本有了比较大的进步。它在国际数学奥林匹克预选赛题目(AIME 2024)、编程能力测试(CodeForces)方面都比 o1- preview 提升了 50%。在处理复杂问题时的重大错误率降低了 34%。
它还能根据题目的难易程度调节处理时间,这使得用户等待时间下降超过 50%。
更重要的是 o1 也能支持多模态识别了。这让它的实用性暴增。医生可以用它分析医学影像,工程师能让它帮忙看图纸,设计师还能让它提供创意建议。
但它的价格也相当贵,只有 200 美金的 ChatGPT Pro 版订阅用户才能享受无限使用,其他普通 20 美元订阅用户仅能享受每日 20 次使用权限。
作为第一天登场的产品,o1 确实能让人眼前一亮。
Sora(Day3)
等了 10 个月后,Sora 终于姗姗来迟。
但这不是个模型版本升级,而更像是一个产品打磨。正式版的 Sora 能生成最长 20 秒,最高 1080p 的视频。生成效果和 2 月份刚放出的差异不大。
但产品上 OpenAI 确实下了点心思,故事板是此次发布中最具创新性的功能,也是 Sora 最具野心的尝试。它为用户提供了类似专业视频编辑软件的时间轴界面。用户可以在时间轴上添加多个场景卡片。用户可以将多个提示词串联起来,系统会自动处理场景之间的过渡效果。
除此之外,OpenAI 还提供了 Remix、Blend 和 Loop 三个专业工具。换掉视频中的元素,或者混合两个视频,还能自动补全做无限循环视频。
产品是挺不错的,但没升级过的模型不太给力。在发布后的评测中,Sora 频频翻车,运动、交互和物理经常处理得一塌糊涂。还会有凭空出现的人和鬼影。
OpenAI 给的可用量也很小气,20 美元的 Plus 用户每月可用 50 次。只有支付每月 200 美元的 Pro 用户则能享受无限次数的"慢速"生成权限。
Sora 总算来了,但是挺让人失望的。
Canvas(Day4)
一句话形容,Canvas 就是 OpenAI 打造的 AI 版 Google Docs。
因为 Canvas 已经进化成了集智能写作、代码协作和 AI 智能体为一体的一套完整工作台。它显示出了 OpenAI 超越 Chatbot 的产品野心。
作为写作助手,可以提供编辑意见。
编程功能上,Canvas 则通过内置的 WebAssembly Python 模拟器,创造了一个几乎无延迟的编程环境。它还展现出了理解代码意图的能力。
与近期更新的 Cursor 和 Devin 一样,它上线了定制化 AI 智能体的能力。它可以完成一系列操作,帮你给朋友们发圣诞信。
Canvas 的这三个维度并不是孤立运作的。在实际使用中,它们往往会相互配合,这种无缝的集成使 Canvas 成了一个多功能 AI 驱动的创作工作室原型。
但单纯从前端展示的角度看,它不如 Claude 的 Artifacts。编程的便利性也不如 Cursor。因此融合才是它的亮点吧。
一般产品更新
o1-mini 强化微调(Day2)
这一产品如果不是实用性较窄,也算是一个重磅发布。
它改变了过去微调只是通过增加专业数据的逻辑,而是对具有推理能力的模型进行强化学习方向的微调。引导模型在面对复杂问题时有更深刻的思考能力。
现在,仅需 “几十个例子” 甚至 12 个例子,就能够让模型有效学会特定领域的推理。根据 OpenAI 的研究数据,经过强化微调的 o1mini 模型,其测试通过率比传统的 o1 模型高出 24%,相比未经过强化微调的 o1mini 则提升了整整 82%。
可惜只能微调 o1-mini,适用上也都是那些复杂领域任务,比如医疗、法律或金融和保险。泛用性较差。
高级视频语音模式(Day6)
这又是个老饼上桌。5 月 13 日,在 GPT-4o 的演示中,OpenAI 的工作人员就能和 4o 视频通话,可以看到我们实时的手机屏幕内容,或者根据相机里的实时画面和我们聊天或解答问题。
这次就是真正实装了,没有什么升级。但这个功能本身还是非常重要的。
不过因为这个饼烙的时间有点长,前两天微软推出的 Vision 和谷歌还在烙的 Astra 也已经跟上了。OpenAI 的领先正在一点点被蚕食。
与苹果的合作(Day5、Day11)
ChatGPT 和 Apple Intelligence 的,更像是个官宣深度结果。苹果搞不定的只能让贤 OpenAI 了。
整合主要包含三个方面:首先是与 Siri 的协同。当 Siri 判断某个任务可能需要 ChatGPT 的协助时,它可以将任务移交给 ChatGPT 处理;
其次是写作工具的增强,用户现在可以使用 ChatGPT 从头开始撰写文档,还能进行文档细化和总结;
第三是 iPhone 16 的相机控制功能,它能够通过视觉智能让用户更深入地了解拍摄对象。
后面第十一天的 Mac 整合,则是给了 GPT 更多 Mac 工具的调用权限。
我唯一不理解的就是这俩为什么不能同一天宣布,还非分两天?
能力补齐和小功能更新(Day 7,8,9,10)
剩下的几个更新最多只能算是凑数。简单一句话就能说清。
“Projects” 项目功能:它允许用户创建特定项目,上传相关文件,设置自定义指令,并将所有与该项目相关的对话集中在一个地方。基本和 Claude 的没差别。
ChatGPT 搜索升级:能在对话中搜索,支持多模态输出。Perplexity 的 Pro 模式早支持了。
4o 热点:美国用户能打电话用 4o 了!挺尊老爱老的,我看也算是给他们过重阳了。
o1 图像输入和 4o 高级语音 API 正式开放:我建议这个放在 o1 发布当天最后一句话说完。
这几天真的是有点进入拖时间的循环了。
最终王炸
GPT-o3(Day 12)
如果不是最后一天 GPT-o3 压轴登场,我真的觉得 OpenAI 纯粹是为了搅浑水才连开 12 天发布会。
因为在这期间,Google 发布了 Gemini 2 Flash,超快超强;Astra,看起来是真的 Agent 模样;Voe2,碾压 Sora ;Gemini 2 Flash Thinking,o1 人家也有了。就发了三篇公告几个视频,把 OpenAI 前 11 天的发布全都掀了桌。
但在 Day 12,OpenAI 还是找回了雄风。用 o3 向业界证明:Scaling Law 未死,OpenAI 为王。
o3 是 o1 的下一个版本。在 9 月份 o1 发布后仅 3 个月后,这一新版本在编码、数学以及 ARC-AGI 基准测试等多个基准上就大幅超过了 OpenAI 此前的 o1 模型。
看几个数据对比:
Codeforces 评分:2727——相当于全球人类程序员编码竞赛中,排名第 175 位。超过 99% 的人类程序员。
博士水平的科学问题(GPQA):87.7%——博士生一般得分 70%
最难的前沿数学测试:25.2%——其他模型没有超过 2%,数学天才陶哲轩说该测试 “可能难住 AI 好几年”
证明是否达到 AGI 的题目 ARC-AGI:87.5%——o1 的得分 25%
最值得注意的就是这最后一项测试 ARC-AGI,它展示的是模型新型任务适应能力。作为对比,之前 ARC-AGI-1 从 2020 年 GPT-3 的 0% 仅提升到 2024 年 GPT-4o 的 5%。这意味着模型不是死记硬背,而是真正在解决问题的能力。
虽然 ARC-AGI 测试中表现出色,但这并不意味着 o3 已达到了 AGI 水平,因为它仍会在一些非常简单的任务中失败,和人类智能有根本性的差别。
但不论如何,这都证明 OpenAI 选择强化推理这个范式转变成功了。人工智能的发展没有任何放缓的迹象。Scaling Law 依然有效。
那些对 AI 停滞不前的担忧,被 OpenAI 年末的圣诞礼物一扫而空。
虽然 o3 进行一次低算力计算的成本高达 20 美元,高算力甚至可能高达 3000 美元,要使用在现阶段几乎是不可能的。但算力会降低,Scaling Law 会延续。
3 个月,两个顶尖模型,OpenAI 在这 12 天的最后一天又让我们感受到了 2022 年末到 2023 年初从 ChatGPT 到 GPT4 那段时间 AI 扑面而来的速度。
也许正如之前参与开发了 o1 的 OpenAI 科学家 Noam Brown 在采访中说的一样,“2024 年,OpenAI 是在实验,而 2025 年就是全速前进的一年。”
OpenAI 12 天的发布会,过程波折,完美收工。为 2025 年的 AI 埋下了希望。
本文作者:郝博阳,来源: 腾讯科技,原文标题:《一文回顾 OpenAI 系列发布会:从工具到 AGI,OpenAI 的 12 天进化论》

