OpenAI 年末的 12 天连续 Devday 更新终于落幕，每天蹲守观看发布会都像在开巧克力盲盒，不知道下一个是什么口味。在前 11 天的发布会中，大部分属实非常寡淡，只有三个产品还有些精彩的 “滋味”。总结起来，能称得上重磅的更新包括：o1 正式版、Sora、Canvas，它们主要集中在前 4 天发布。其中，o1 正式版确实提升很大，Sora 则是增加了不少对 AI 生成视频进行更改的产品模式，Canvas 可以被视为 OpenAI 第一次挑战 AI 工作台的产品尝试。其次，相对还有些看点的是：和苹果的深度合作，视频通话功能，以及 o1-mini 的强化微调。o1-mini 的强化微调在专业领域潜力很大，微调简单提升明显。视频通话功能则是那个让人惊艳的 “HER” 正式上线。和苹果的深度合作对 OpenAI 来讲也是件大事，更站稳了在 AI 行业的一哥地位。另外一些小的产品更新则是让人觉得——“这也值得开发布会？”这些产品包括 “Projects” 项目功能、o1 图像输入和 4o 高级语音 API 正式开放、ChatGPT Search 升级和给 GPT 打电话 的功能。它们都是相对比较小，也都和竞争对手没什么差异的更新。到了最后一天，OpenAI 终于甩出一个王炸：GPT-o3。一举打破 AI 发展陷入瓶颈的怀疑，各项性能直奔 AGI 而去。我们根据发布产品的重要性做了一个表格，梳理这过山车似的十二天发布日。<figure class="image"><img src="https://pub.pbkrs.com/uploads/2024/67edace61a2f5f53049639c5ff1bc46e?x-oss-process=style/lg" width="960" height="1754" original-src="https://pub.pbkrs.com/uploads/2024/67edace61a2f5f53049639c5ff1bc46e"/></figure>下面，我们来稍微详细地讲述一下这些更新的核心点。<h2 id="vznc9gw7d">重要产品更新</h2>o1 完全版（Day1）从能力上看，o1 确实比 Preview 版本有了比较大的进步。它在国际数学奥林匹克预选赛题目（AIME 2024）、编程能力测试（CodeForces）方面都比 o1- preview 提升了 50%。在处理复杂问题时的重大错误率降低了 34%。<figure class="image"><img src="https://pub.pbkrs.com/uploads/2024/905d8f770e9cedbedfc639e4edce1c8d?x-oss-process=style/lg" width="605" height="340" original-src="https://pub.pbkrs.com/uploads/2024/905d8f770e9cedbedfc639e4edce1c8d"/></figure>它还能根据题目的难易程度调节处理时间，这使得用户等待时间下降超过 50%。更重要的是 o1 也能支持多模态识别了。这让它的实用性暴增。医生可以用它分析医学影像，工程师能让它帮忙看图纸，设计师还能让它提供创意建议。但它的价格也相当贵，只有 200 美金的 ChatGPT Pro 版订阅用户才能享受无限使用，其他普通 20 美元订阅用户仅能享受每日 20 次使用权限。作为第一天登场的产品，o1 确实能让人眼前一亮。Sora（Day3）等了 10 个月后，Sora 终于姗姗来迟。<figure class="image"><img src="https://pub.pbkrs.com/uploads/2024/6f5441d8907a2a796387875b35fcfa81?x-oss-process=style/lg" width="568" height="320" original-src="https://pub.pbkrs.com/uploads/2024/6f5441d8907a2a796387875b35fcfa81"/></figure>但这不是个模型版本升级，而更像是一个产品打磨。正式版的 Sora 能生成最长 20 秒，最高 1080p 的视频。生成效果和 2 月份刚放出的差异不大。<figure class="image"><img src="https://pub.pbkrs.com/uploads/2024/d306ee9dbe0fa0fb92dfca6a55716978?x-oss-process=style/lg" width="426" height="240" original-src="https://pub.pbkrs.com/uploads/2024/d306ee9dbe0fa0fb92dfca6a55716978"/></figure>但产品上 OpenAI 确实下了点心思，故事板是此次发布中最具创新性的功能，也是 Sora 最具野心的尝试。它为用户提供了类似专业视频编辑软件的时间轴界面。用户可以在时间轴上添加多个场景卡片。用户可以将多个提示词串联起来，系统会自动处理场景之间的过渡效果。<figure class="image"><img src="https://pub.pbkrs.com/uploads/2024/d5f2f2a068392b357f1be2e33d5b1147?x-oss-process=style/lg" width="605" height="319" original-src="https://pub.pbkrs.com/uploads/2024/d5f2f2a068392b357f1be2e33d5b1147"/></figure>除此之外，OpenAI 还提供了 Remix、Blend 和 Loop 三个专业工具。换掉视频中的元素，或者混合两个视频，还能自动补全做无限循环视频。产品是挺不错的，但没升级过的模型不太给力。在发布后的评测中，Sora 频频翻车，运动、交互和物理经常处理得一塌糊涂。还会有凭空出现的人和鬼影。<figure class="image"><img src="https://pub.pbkrs.com/uploads/2024/d084e3c21a2cb61bf9a44ed17cb9db46?x-oss-process=style/lg" width="426" height="240" original-src="https://pub.pbkrs.com/uploads/2024/d084e3c21a2cb61bf9a44ed17cb9db46"/></figure>OpenAI 给的可用量也很小气，20 美元的 Plus 用户每月可用 50 次。只有支付每月 200 美元的 Pro 用户则能享受无限次数的&#34;慢速&#34;生成权限。Sora 总算来了，但是挺让人失望的。Canvas（Day4）一句话形容，Canvas 就是 OpenAI 打造的 AI 版 Google Docs。因为 Canvas 已经进化成了集智能写作、代码协作和 AI 智能体为一体的一套完整工作台。它显示出了 OpenAI 超越 Chatbot 的产品野心。作为写作助手，可以提供编辑意见。<figure class="image"><img src="https://pub.pbkrs.com/uploads/2024/08d4beae6fb356a56e1677c3e9b3daea?x-oss-process=style/lg" width="960" height="544" original-src="https://pub.pbkrs.com/uploads/2024/08d4beae6fb356a56e1677c3e9b3daea"/></figure>编程功能上，Canvas 则通过内置的 WebAssembly Python 模拟器，创造了一个几乎无延迟的编程环境。它还展现出了理解代码意图的能力。与近期更新的 Cursor 和 Devin 一样，它上线了定制化 AI 智能体的能力。它可以完成一系列操作，帮你给朋友们发圣诞信。<figure class="image"><img src="https://pub.pbkrs.com/uploads/2024/f02e5dc3a43dc439db80d1781bf4f813?x-oss-process=style/lg" width="960" height="490" original-src="https://pub.pbkrs.com/uploads/2024/f02e5dc3a43dc439db80d1781bf4f813"/></figure>Canvas 的这三个维度并不是孤立运作的。在实际使用中，它们往往会相互配合，这种无缝的集成使 Canvas 成了一个多功能 AI 驱动的创作工作室原型。但单纯从前端展示的角度看，它不如 Claude 的 Artifacts。编程的便利性也不如 Cursor。因此融合才是它的亮点吧。<h2 id="3fm5uii5e">一般产品更新</h2>o1-mini 强化微调（Day2）这一产品如果不是实用性较窄，也算是一个重磅发布。它改变了过去微调只是通过增加专业数据的逻辑，而是对具有推理能力的模型进行强化学习方向的微调。引导模型在面对复杂问题时有更深刻的思考能力。现在，仅需 “几十个例子” 甚至 12 个例子，就能够让模型有效学会特定领域的推理。根据 OpenAI 的研究数据，经过强化微调的 o1mini 模型，其测试通过率比传统的 o1 模型高出 24%，相比未经过强化微调的 o1mini 则提升了整整 82%。可惜只能微调 o1-mini，适用上也都是那些复杂领域任务，比如医疗、法律或金融和保险。泛用性较差。高级视频语音模式（Day6）这又是个老饼上桌。5 月 13 日，在 GPT-4o 的演示中，OpenAI 的工作人员就能和 4o 视频通话，可以看到我们实时的手机屏幕内容，或者根据相机里的实时画面和我们聊天或解答问题。<figure class="image"><img src="https://pub.pbkrs.com/uploads/2024/64ac1f2eb517a95024d912dbb7286718?x-oss-process=style/lg" width="668" height="477" original-src="https://pub.pbkrs.com/uploads/2024/64ac1f2eb517a95024d912dbb7286718"/></figure>这次就是真正实装了，没有什么升级。但这个功能本身还是非常重要的。不过因为这个饼烙的时间有点长，前两天微软推出的 Vision 和谷歌还在烙的 Astra 也已经跟上了。OpenAI 的领先正在一点点被蚕食。<h2 id="dcbqrsovq">与苹果的合作（Day5、Day11）</h2>ChatGPT 和 Apple Intelligence 的，更像是个官宣深度结果。苹果搞不定的只能让贤 OpenAI 了。整合主要包含三个方面：首先是与 Siri 的协同。当 Siri 判断某个任务可能需要 ChatGPT 的协助时，它可以将任务移交给 ChatGPT 处理；<figure class="image"><img src="https://pub.pbkrs.com/uploads/2024/05aef175c2332bb17cb0daa8ea5eee53?x-oss-process=style/lg" width="960" height="540" original-src="https://pub.pbkrs.com/uploads/2024/05aef175c2332bb17cb0daa8ea5eee53"/></figure>其次是写作工具的增强，用户现在可以使用 ChatGPT 从头开始撰写文档，还能进行文档细化和总结；第三是 iPhone 16 的相机控制功能，它能够通过视觉智能让用户更深入地了解拍摄对象。后面第十一天的 Mac 整合，则是给了 GPT 更多 Mac 工具的调用权限。我唯一不理解的就是这俩为什么不能同一天宣布，还非分两天？<h2 id="j1k21ewof">能力补齐和小功能更新（Day 7，8，9，10）</h2>剩下的几个更新最多只能算是凑数。简单一句话就能说清。“Projects” 项目功能：它允许用户创建特定项目，上传相关文件，设置自定义指令，并将所有与该项目相关的对话集中在一个地方。基本和 Claude 的没差别。ChatGPT 搜索升级：能在对话中搜索，支持多模态输出。Perplexity 的 Pro 模式早支持了。4o 热点：美国用户能打电话用 4o 了！挺尊老爱老的，我看也算是给他们过重阳了。o1 图像输入和 4o 高级语音 API 正式开放：我建议这个放在 o1 发布当天最后一句话说完。这几天真的是有点进入拖时间的循环了。<h2 id="rg3zeiriv">最终王炸</h2>GPT-o3（Day 12）如果不是最后一天 GPT-o3 压轴登场，我真的觉得 OpenAI 纯粹是为了搅浑水才连开 12 天发布会。因为在这期间，Google 发布了 Gemini 2 Flash，超快超强；Astra，看起来是真的 Agent 模样；Voe2，碾压 Sora ；Gemini 2 Flash Thinking，o1 人家也有了。就发了三篇公告几个视频，把 OpenAI 前 11 天的发布全都掀了桌。但在 Day 12，OpenAI 还是找回了雄风。用 o3 向业界证明：Scaling Law 未死，OpenAI 为王。o3 是 o1 的下一个版本。在 9 月份 o1 发布后仅 3 个月后，这一新版本在编码、数学以及 ARC-AGI 基准测试等多个基准上就大幅超过了 OpenAI 此前的 o1 模型。看几个数据对比：Codeforces 评分：2727——相当于全球人类程序员编码竞赛中，排名第 175 位。超过 99% 的人类程序员。博士水平的科学问题（GPQA）：87.7%——博士生一般得分 70%最难的前沿数学测试：25.2%——其他模型没有超过 2%，数学天才陶哲轩说该测试 “可能难住 AI 好几年”证明是否达到 AGI 的题目 ARC-AGI：87.5%——o1 的得分 25%<figure class="image"><img src="https://pub.pbkrs.com/uploads/2024/1d0cf9061b237a50e92f62f36ea2000d?x-oss-process=style/lg" width="960" height="521" original-src="https://pub.pbkrs.com/uploads/2024/1d0cf9061b237a50e92f62f36ea2000d"/></figure>最值得注意的就是这最后一项测试 ARC-AGI，它展示的是模型新型任务适应能力。作为对比，之前 ARC-AGI-1 从 2020 年 GPT-3 的 0% 仅提升到 2024 年 GPT-4o 的 5%。这意味着模型不是死记硬背，而是真正在解决问题的能力。虽然 ARC-AGI 测试中表现出色，但这并不意味着 o3 已达到了 AGI 水平，因为它仍会在一些非常简单的任务中失败，和人类智能有根本性的差别。<figure class="image"><img src="https://pub.pbkrs.com/uploads/2024/a8c2d93b6d355f7d0c3d63eb55a7b6b5?x-oss-process=style/lg" width="960" height="568" original-src="https://pub.pbkrs.com/uploads/2024/a8c2d93b6d355f7d0c3d63eb55a7b6b5"/></figure>但不论如何，这都证明 OpenAI 选择强化推理这个范式转变成功了。人工智能的发展没有任何放缓的迹象。Scaling Law 依然有效。那些对 AI 停滞不前的担忧，被 OpenAI 年末的圣诞礼物一扫而空。虽然 o3 进行一次低算力计算的成本高达 20 美元，高算力甚至可能高达 3000 美元，要使用在现阶段几乎是不可能的。但算力会降低，Scaling Law 会延续。3 个月，两个顶尖模型，OpenAI 在这 12 天的最后一天又让我们感受到了 2022 年末到 2023 年初从 ChatGPT 到 GPT4 那段时间 AI 扑面而来的速度。也许正如之前参与开发了 o1 的 OpenAI 科学家 Noam Brown 在采访中说的一样，“2024 年，OpenAI 是在实验，而 2025 年就是全速前进的一年。”OpenAI 12 天的发布会，过程波折，完美收工。为 2025 年的 AI 埋下了希望。本文作者：郝博阳，来源： 腾讯科技，原文标题：《一文回顾 OpenAI 系列发布会：从工具到 AGI，OpenAI 的 12 天进化论》

OpenAI

前四天重磅推出 o1 正式版、Sora、Canvas，中间 “水” 了几天，最后一天直接甩出王炸——GPT-o3，一举打破 AI 发展陷入瓶颈的怀疑。

- OpenAI 年末的 12 天 Devday 更新中，o1 正式版、Sora 和 Canvas 是重磅产品。  
- o1 在数学和编程能力上提升显著，Sora 提供视频编辑功能，Canvas 集成多种创作工具。  
- 最后一天发布的 GPT-o3 显示出 AI 发展的新突破，打破了行业对停滞的质疑。  

华尔街见闻

谷歌-C

皓宸医疗

医渡科技

科大讯飞

谷歌-A

微软

华康洁净

海尔生物

朗玛信息

泡泡玛特

瑞康医药

联发科

舜宇光学科技

苹果

怡和合发

商汤-W

索尼

一文回顾 OpenAI 系列发布会：从工具到 AGI，OpenAI 的 12 天进化论