AI 界的 “科技春晚”、OpenAI 开发者大会,到底有多令人兴奋? 11 月 7 日,在 OpenAI 开发者大会之后,科技博主 Dan Shipper 发表了一篇有关他在这场大会上见闻的文章,他介绍了 OpenAI 提出的主要更新,并称 OpenAI 的进步速度惊人,未来几个月和几年将 “非常疯狂”。 Shipper 说,OpenAI 推出的 GPT-4 Turbo 有着五大升级:更大的上下文容量、更高的智能级别、更快的响应速度、更低的价格以及更简单的操作。它不仅令模型本身得到加强,与模型交互的方式也更简单、便捷。全新的检索功能和自动维护对话状态使开发者可以更容易地构建应用;无代码自定义 ChatGPT 又降低了普通用户的门槛。 他认为,以上的这些特性为 OpenAI 日后推出代理服务的更新奠定了基础。所谓代理,即模型可以自主规划和执行更复杂、多步骤的任务,并且在没有监督的情况下完成。虽然 GPT-4 现在还没有 “聪明” 到那个程度,但 OpenAI 已经在为这个目标做准备。 Shipper 还分析了 OpenAI 试图建立应用商店的战略。他认为这个战略可以让用户建立自己个性化的 GPT 并且据此收费,是一种令构建聊天机器人的能力民主化的表现。但这种战略同时也存在问题,比如用户可能对于在不同版本的 ChatGPT 之间切换感到疲惫——Shipper 认为这是 OpenAI 需要解决的问题。 最后,他还提到了 OpenAI 与开发者之间的微妙关系。他指出,OpenAI 近来发布的许多更新更多地针对的都是消费者,而非开发者,但 OpenA 最初成立的目标却是服务开发者。这造成了一种矛盾,即 ChatGPT 会直接与开发者产生竞争。 Shipper 认为,如果 OpenAI 不得不在 ChatGPT 和其开发者生态系统之间做出选择,它将选择前者: ChatGPT 是 OpenAI 最有价值的高质量训练数据来源,所以它是改进模型质量的最佳途径。 Shipper 补充称,这实际上是许多科技公司所面临的核心问题,比如苹果也因其内部产品与第三方开发者产品竞争而遭到批评,但这个问题对于 OpenAI 来说可能更为严峻: 这就像苹果允许开发者发布自己版本的 iOS。 但总体而言,Shipper 认为,OpenAI 的这场活动仍然是激动人心的,并且展示了这家公司惊人的进步速度: 现在没有任何公司比 OpenAI 做的工作更有趣、更快。这家公司的进步速度惊人,在可预见的未来也没有放慢的迹象。 在这个会议上,业内的说法是,OpenAI 是一个人才强者,给人的感觉非常像鼎盛时期的 Stripe。(事实上,我听说 OpenAI 聘用了许多曾在 Stripe 工作过的人。) 房间里的能量是显而易见的。我认为科技行业中没有更大、更有趣的故事了。未来的几个月和几年将非常疯狂。 以下为 Shipper 在其创办的科技资讯网站 Every 上发表的文章原文,由华尔街见闻整理编译: 我在 OpenAI 开发者日上的见闻 我喜欢观察人们以为无人注意时的举止动作。 这就是参加 OpenAI 开发者日等活动的难得之处:你可以看到摄像头没有捕捉到的东西,听到台上没有说出口的话语。 现场人头攒动,水泄不通,WiFi 飞快,LED 灯闪闪发亮。这是为 AI 技术迷如我准备的魔术秀。 我在人群中穿梭,做着我的专利动作 FCO:"偷偷摸摸地窥视会议"(Furtive Conference Ogle)。我会看到某个也许很有名的人——比如说,Roon,或者 Karpathy,或者 Kevin Roose——然后迅速低头看一眼他们的徽章,在他们给我一个"嘿,我的眼睛在这里,伙计!"的表情之前又抬起头来看他们的脸。 我通常喜欢在活动中坐在后排,但在开发者日我确保坐在了前排。我想近距离观看这场魔术秀。 Sam Altman 走上舞台,向观众致意。在他表演时,我可以从他的脸上和身上看到紧绷、内敛、紧张的能量。我能从他的表演中感受到他经过数小时的练习。简短的开场独白之后,Sam 介绍了一段视频,视频中创意专业人士、开发人员和普通人都在谈论他们是如何使用 ChatGPT 的。灯光暗下来,他走到一边,视频开始了。大家都在看视频,我却在看 Sam。 他独自站在舞台一角的阴影里。他穿着深色牛仔裤和原色的阿迪达斯 x 乐高合作款运动鞋。他双手合十,目不转睛地盯着地板。Sam 很紧张,总是"绷着"。但在舞台一侧,听着正在播放的视频,他却显得不修边幅,不学无术。我感觉自己抓住了魔术师操纵一枚隐藏硬币的左手,而观众们却在看他挥舞的右手。 暂时看穿魔术师的秘密会打破他们的魔力。但它也会创造一种新的魔力:你会将魔术师看作一个人类。吃饭,呼吸,一条腿一条腿地穿裤子,却仍然施法。 Sam 正在成为科技界的传奇人物。但在舞台上的那一刻,他也是一个人。他看起来乐在其中,观察并期待着自己创造的东西,并看着它在世界最大的舞台上上演。他实现了所有曾经制造过某样东西并希望世界会喜欢它的人的梦想。 目睹他那一刻本身就值回入场券的价格。我不会很快忘记。 以下是他要告诉我们的: 更大、更智能、更快、更便宜、更简单。 这就是 OpenAI 昨天宣布的主要变化。让我们逐一回顾这些更新,并讨论它们为何如此重要。 一个新模型:GPT-4 Turbo 更大 OpenAI 推出了一款新模型 GPT-4 Turbo,它拥有 128K 的 Token 上下文窗口。这意味着你发送给 GPT-4 Turbo 的每个提示符可以相当于 300 页的文本。以下这些东西在 300 页以内: 埃里克·莱斯的《精益创业》的全部内容 圣埃克苏佩里的《小王子》三本 我中学时喜怒无常的日记的至少一半 这比今天之前最广泛使用的 GPT-4 版本的上下文窗口长度增加了 16 倍。它显著增强了开发人员使用 GPT-4 可以运行的查询的复杂性和功能。以前,开发人员必须花费时间和精力来决定将哪些信息放入他们的提示符中,这是 LLM 性能最重要的瓶颈之一。 128K 的上下文窗口极大地简化了这一任务,但并未解决所有问题。过长的上下文窗口不易管理,而且语言模型会越来越多地忘记或忽略上下文信息。我们还不知道 GPT-4 Turbo 是否存在这些问题,我会在使用过程中与你分享。 更智能 GPT-4 Turbo 在以下几方面比 OpenAI 以前的模型更智能: 它可以同时使用多种工具。 之前版本的 GPT-4 引入了工具使用,我有报道过。工具使用允许 GPT-4 调用开发者定义的工具——如网页浏览、计算器或 API——来完成查询。之前,GPT-4 每次只能使用一个工具。现在它可以同时使用多个工具。 知识截止时间更新。 之前版本的 GPT-4 只知道到 2021 年 9 月之前的事件。这个版本更新到了 2023 年 4 月,使其更加可靠。 GPT-4会 JSON。 JSON 是一种非 AI 应用可以轻松读取的文本格式。GPT-4 Turbo 可以可靠地以这种格式返回结果——使其更易与其他软件集成。之前,开发者需要通过例如告诉 GPT 如果格式错误就会被解雇来 “哄骗” 它正确格式化输出。不再需要哄骗了。 GPT-4可以编写和运行代码。 一段时间以来,ChatGPT Plus 用户可以使用代码解释器 (后改名为高级数据分析),这是一个可以为你编写和运行 Python 代码的 ChatGPT 插件。它就像一个口袋里的数据科学家——现在开发者可以通过 GPT-4 API 使用和集成到自己的程序中。 多模态。 GPT-4 API 可以接受图像作为输入:开发者可以发送任何图像,GPT-4 可以告诉他们看到了什么。它还可以进行文本到语音,这意味着它可以用人声回复文本输入。它还可以用 DALL-E 进行图像生成。 更快 据我所知,目前还没有公开的速度基准测试,但 Sam 说它更快。根据我昨晚穿着睡衣进行的科学测试,他是对的。它真的很快。它让 GPT-4 望尘莫及,看起来至少和 GPT 3.5 Turbo 一样快,甚至略快于 GPT 3.5 Turbo——之前最快的模型。 更便宜 GPT-4 Turbo 比 GPT-4 便宜 3 倍。我不记得有哪家公司能在大幅提升性能的同时还能降低价格。 我们很幸运,OpenAI 采用的是硅谷的游戏规则,旨在创造大规模应用,而不仅仅是高额的企业合同。只要足够便宜,人工智能就能为每个人所用,而这正是 OpenAI 的目标。 如果 IBM 发明了 GPT,你认为它会做这样的事情吗?不会。 更简单 OpenAI 也使开发者和非开发者更容易与 GPT-4 Turbo 交互。该公司使许多第三方库的功能 (以及开发者通常编写的模板代码) 变得不必要。以下是一些方式: 检索。 这是一个重大进步。提高大型语言模型性能的最重要方式之一是让模型访问私人数据,如公司知识库或个人笔记。以前,这种功能需要手动构建 (就像我为我的 Huberman 实验室聊天机器人所做的那样),或使用第三方库,如 Langchain 或 LlamaIndex(我是后者的投资人)。OpenAI 通过其检索功能将这些库的部分功能集成到了其核心 API 中——使开发者更容易开始构建 GPT-4 应用程序。 这会产生有趣的结果。一方面,它减少了对这些第三方库的需求。另一方面,OpenAI 的检索机制目前是一个黑箱,没有可配置性。检索是一个难题,不同目的有许多不同的检索机制。OpenAI 的新发布涵盖了基础知识,但 Langchain 和 LlamaIndex 实现了各种各样的检索类型,并且适用于非 OpenAI 制作的模型——所以它们的服务仍有需求。 保存状态。 我之前写过,GPT-4 就像《初恋 50 次》里的朵琳·芭丽摩:每次和它交互时,你都必须一次又一次地介绍你是谁,为什么它爱你。GPT-4 API 可以通过一个名为"Threads"(与 Meta 的 Twitter 克隆版无关联)的新功能自动记住对话历史,节省开发者的时间和麻烦,因为他们不再需要自己管理对话历史。 自定义无代码 ChatGPT。 OpenAI 还使任何人都可以轻松构建自己的自定义 ChatGPT 版本,内置私人数据——无需编程。任何人都可以设置一个 ChatGPT 版本,具有自己的个性和访问私人知识的能力。这是一个重大进展。今年早些时候,我为 Substack 作者 Lenny Rachitsky 构建了一个基于他的新闻稿存档的机器人。如今的更新意味着任何人都可以构建等效的机器人——无需编码。 GPT应用商店。 OpenAI 宣布任何人都可以在公共应用商店中列出自己的 GPT 并为之收费。我主张将聊天机器人作为一种新内容形式已经近一年了——这一发展支持了这一论点。 无需切换模型。 这是一个巨大的更新。在以前版本的 ChatGPT 中,您必须选择要使用的模型: GPT-3.5、GPT-4、GPT with DALL-E、GPT with Web Browsing 或 GPT with Advanced Data Analysis。现在,您只需要向 ChatGPT 发送一条消息,它就会为您选择合适的模型。用户可以更轻松地将 ChatGPT 的不同功能组合使用,无需来回切换,而且这为开发者创造了新机遇 (本文后面会涵盖)。 增量更新——为未来奠定基础 所有这些更新都很棒,但它们大多是增量。它们在 API 中构建了许多开发人员必须自己完成的任务,从而使开发人员构建的东西更快、更便宜、更强大。 不过,这些特性为一个可能更重要的更新奠定了基础:代理。代理是一种模型,它可以被分配复杂的、多步骤的任务,并在没有监督的情况下完成这些任务。这就是 GPT-4 的新助手 API。 这是支持检索、保存状态和工具使用的 API(如上所述)。这些要素加在一起,就是代理服务的开始。从目前的情况来看,OpenAI 似乎正在预测一个世界,在这个世界中,您将能够给助手分配一个目标,给他们一组工具,并让他们自己完成目标。 我们离那还很远,因为 GPT-4 还不够聪明,无法自主规划和执行任务。但 OpenAI 现在正在奠定架构和安全基础,并有意推出渐进式步骤,以使技术准备就绪。 OpenAI正试图打造一个应用商店 今年 4 月,OpenAI 推出了插件,允许用户从 ChatGPT 内部访问第三方服务和数据。有很多关于插件将成为一个新的 App Store 的宣传,但事实并非如此。OpenAI 从未发布过相关数据,但据我所知,第三方插件的采用率非常低,尽管 OpenAI 构建的两个插件:代码解释器和 DLL-E 的采用率很高。 现在,OpenAI 凭借 GPT 再次尝试这一点——它的服务允许任何人使用私人数据创建 ChatGPT 的定制版本: 任何用户都可以创建 GPT。你可以定义它的个性:它如何回应询问,使用什么声音和语气。您可以让它访问一些工具,比如执行代码的能力,或者从私有知识库中获得问题的答案。然后可以发布 gpt 供其他用户使用。 我安装了一个名为 “谈判者” 的新 GPT(由 OpenAI 构建),它可以帮助你在任何类型的谈判中为自己辩护。它显示在我的 ChatGPT 侧栏如下: 如果我点击谈判者,它将把我从普通的 ChatGPT 中移出,进入一个专门设计的体验,帮助我在任何谈判中获得最佳结果: 我很喜欢这种方法。我喜欢这个让构建聊天机器人的能力民主化的想法——我可以预见,在接下来的几周里,我将在这里进行大量的实验。 尽管如此,我还是有疑问。它面临着与 OpenAI 失败的插件实验相同的问题:没有人愿意为不同的用例在不同版本的 ChatGPT 之间切换。 更好的方法是让 ChatGPT 能够在需要时自动切换到特定的个性,比如 “谈判专家”,并在不需要时再切换回来。在这发生之前,我看不到这些机器人有太大的采用。 但如果它发生了,那将是巨大的。为 ChatGPT 下载一个新的个性将等同于让你的 AI 阅读一本新主题的书或上一门课。在这个世界里,会有一整个经济体的人创建的内容是专门针对 LLM 而不是人类。例如,我可能会购买 ChatGPT 阅读和摄取的谈判书等价物,而不是购买一本自己阅读的谈判书。 因此,我认为 OpenAI 最终确实有机会建立一个应用商店体验。但在他们能够弄明白如何让 ChatGPT 在长长的个性列表之间自动切换之前,这是不会发生的。鉴于 OpenAI 改变了 ChatGPT,以便您不必在其内部模型之间切换,这对自定义 GPT 来说也可能很快就会到来。 OpenAI与开发者的关系 这个开发者大会最引人注目的一件事,是 OpenAI 发布的许多更新更多地是针对消费者而不是开发者。例如,自定义 GPT 是面向消费者的,OpenAI 发布的一些 ChatGPT 特定更新也是如此。这反映了一件重要的事情:OpenAI 目前处于消费者公司和开发者公司之间。 ChatGPT 生来就是有原罪的。当 OpenAI 刚开始时,其目标是服务开发者——直到它意外地创建了有史以来最大的消费者应用。不幸的是,这使该公司与开发者处于对立面,因为 ChatGPT 直接与开发者想要构建的许多东西竞争——无论是在消费者层面还是基础设施层面。 如果 OpenAI 不得不在 ChatGPT 和其开发者生态系统之间做出选择,它将不得不选择 ChatGPT。ChatGPT 是 OpenAI 最有价值的高质量训练数据来源,所以它是改进模型质量的最佳途径。 不仅如此,OpenAI 还正在朝着商品化和消费化开发工作的方向发展。ChatGPT 本身可以把任何人变成一个半熟练的程序员。它昨天推出的功能允许任何人在不需要编码的情况下构建聊天机器人。 这是该公司核心的一个基本紧张关系。这个紧张关系也是许多平台的核心——例如,苹果公司面临着 iOS 和 MacOS 的紧张关系。苹果因内部产品与第三方开发者产品竞争而遭到批评,这被称为 “夏洛克”。 但对 OpenAI 来说这更成问题,因为它的消费者产品与它为开发者提供的产品惊人地相似。这就像苹果允许开发者发布自己版本的 iOS。 我猜如果你想在 OpenAI 生态系统中发挥作用,最好的方法是收集将对使用 ChatGPT 的某人有用的私人数据集,并将其作为自定义 GPT 发布。 OpenAI 可能会投资于使 GPT 在 ChatGPT 界面中更易访问、随时间更强大。你带到派对上的优势将是私人的、经过策划的数据——以及一套规则,用于说明如何为特定类型的用户在特定情况下运用这些数据。这很可能不是 OpenAI 要直接竞争的东西——所以这是一个双赢。 全球最激动人心的公司 现在没有任何公司比 OpenAI 做的工作更有趣、更快。这家公司的进步速度惊人,在可预见的未来也没有放慢的迹象。在这个会议上,业内的说法是,OpenAI 是一个人才强者,给人的感觉非常像鼎盛时期的 Stripe。(事实上,我听说 OpenAI 聘用了许多曾在 Stripe 工作过的人。) 房间里的能量是显而易见的。我认为科技行业中没有更大、更有趣的故事了。未来的几个月和几年将非常疯狂。 零碎事项 多样性。我很欣赏这次会议的包容性。据我所知,这家公司提供的食物非常美味,是由当地女性或少数族裔经营的企业提供的。演示和小组讨论的演讲者非常多样化,他们在 OpenAI 和 Shopify 和 Salesforce 等其他大型科技公司担任领导职务。这一切都很低调,没有表演。在我看来,OpenAI 做得对,值得赞扬。 OpenAI 和微软。一位与会者对我说,他认为 OpenAI 与微软的关系让他想起了苹果与英特尔的长期合作关系。处理器是英特尔制造的,其他一切都是苹果做的。在 OpenAI 的案例中,微软提供托管基础设施,而 OpenAI 负责其他所有工作。这不是一个完美的类比,但它引起了我的共鸣,尤其是在萨蒂亚·纳德拉 (Satya Nadella) 出现在这次会议上,在 Sam 发表主题演讲时与他站在舞台上。 有人能分清 OpenAI 的命名吗?我简直不敢相信它将它的新自定义无代码 ChatGPTs 命名为 “GPTs”。需要有人出面干预——这太令人困惑了。