近几天,科技圈最大的新闻莫过于 OpenAI 和谷歌这两场发布会。 24 小时之内,OpenAI、谷歌这两家 AI 巨头相继亮剑。 5 月 14 日,OpenAI CEO Sam Altman 亲自下场造势,在 20 多分钟的发布会中,用全新的多模态模型 GPT-4o 唤醒了人们对电影《Her》中人工智能系统 “萨曼莎” 的幻想。 次日,谷歌宣布升级 Gemini,推出 “AI 全家桶”,推出集成 AI 的搜索引擎,用 AI 重塑 Android。它试图借此重振旗鼓,抢回 AI 赛道上的主动权。过去一年多里,OpenAI 多次截胡谷歌,抢在谷歌之前发布新技术、产品。 无论是双方在技术上的比拼,还是 OpenAI 牵手苹果,都表明,OpenAI 这家 AI 届的当红明星都对谷歌造成了前所未有威胁。 当然,手握搜索入口、安卓生态王牌的谷歌的护城河在短期内难以攻破。然而在颠覆产业格局的 AI 时代里,面对后浪的追赶,谷歌等科技巨头不能松懈,否者,便是一个时代的远去。 交战 尽管被 OpenAI 抢占了先机,但谷歌显然是有备而来。 OpenAI 推出能说会道的 GPT-4o,谷歌也有自己的萨曼莎——Project Astra。 “我脑海中已经有这个愿景很长一段时间了。” 谷歌 DeepMind 的负责人、谷歌人工智能工作负责人 Demis Hassabis 说。这些年,他一直在思考和研究人工智能,思考如何让机器更像人。 在他的设想中,一个人工智能 Agent 必须能像人一样理解并对复杂灵活的世界做出反馈。它要能看到文本并且有所反应,并且必须有主动性、可被教育的而且有个性,所以能自然地,没有延迟地和它交谈。最终,这些所有的想象就成了 Project Astra。“就是那个帮手,” Hassabis 说,“它很有用,你已经习惯它在你需要的时候一直在那里。” 从演示视频来看,Project Astra 与 Hassabis 的设想显然还有距离。甚至与 GPT-4o 相比,延迟也更高,交流仍然不够自然。但当 Project Astra 准确说出 “眼镜在书桌上,红色苹果旁边” 时,还是获得了在场观众的惊呼声。 Project Astra 的出现,也被视作是对 GPT-4o 的正面回应。 这并非是 OpenAI 和谷歌的第一次正面交战。今年 2 月,在谷歌发布会一周后,OpenAI 悄无声息抛出重磅炸弹,推出了首款文本转视频模型——Sora。尽管 Sora 至今未曾开放使用,仍然给整个科技圈带来了震撼。 对于 OpenAI 扔下的这颗炸弹,谷歌同样在开发者大会上给出反击,发布了 AI 媒体创作模型 Veo。据介绍,Veo 能够生成高质量的 1080p 视频,并且依托于 Imagen 3 这一最新的文本到图像框架。这些 AI 生成的视频可以持续超过一分钟,Veo 还能够理解电影制作和视觉技术的专业概念,如延时拍摄等。 不仅如此,谷歌将 Gemini 集成到了旗下几乎所有产品之中,尤其是其优势业务——搜索,将搜索能力变得更为强大。 尽管两场发布会,一个仅有 20 多分钟,一个长达 2 小时,对两家公司而言,却是一次技术上的巅峰对决。 焦虑 两大 AI 巨头贴身肉搏背后,是 AI 厂商的商业化焦虑。 2015 年,名不见经传的 OpenAI 在硅谷成立。彼时,它还是一家非营利机构。依靠着微软的 10 亿美元投资,过着扫地僧的生活。 自 2022 年 11 月,ChatGPT 问世后,OpenAI 一炮打响,商业化进程也不断加速。2024 年 4 月,OpenAI 的 COO 称,目前企业版 ChatGPT 的注册用户超过 60 万,而今年 1 月这一数字为 15 万多。 受惠于企业对 AI 技术的需求,消息称,OpenAI2023 年年收入已过 20 亿美元。 在这场由 ChatGPT 引发的 AI 热浪下,国内外科技大厂纷纷坐上牌桌。 2023 年 2 月 6 日,谷歌宣布推出对话式生成人工智能聊天机器人 Bard,这是谷歌旗下大模型 Gemini 的前身;Meta 则官宣发布 Llama;同年 3 月,美国公司 Anthropic 推出 Claude;国内公司也立马跟上,百度发布文心一言,阿里推出通义千问,华为旗下则是盘古,商汤也上新日日新。 科技大厂纷至沓来,OpenAI 想要走通商业化之路,抢占先机,就必须保证其技术上的领先,不断推出新的更强大的模型。不过,目前看来,这一路径变得更加艰难。 经过一年多的发展,各厂商相继推出了对标 GPT-4 的大模型。 更具挑战的是,OpenAI 迭代的速度开始变慢了。从第一代 ChatGPT 到 ChatGPT 的发布,OpenAI 只用了 4 个多月。但距离 ChatGPT-4 发布已经过去 1 年多,众人期待的 ChatGPT-5 仍未现身。GPT-4o 的确令人印象深刻,但还不足以给整个行业带来足够的惊艳。 当然,OpenAI 变慢,主要受制于大模型迭代的客观规律。越大越强的模型,数据和算力需求就更高。最终,这些都转化成 OpenAI 的成本压力。 相比于 OpenAI 庞大的研发成本,超 20 亿美元的年收入依旧是杯水车薪。Sam Altman 表示,由于构建和运行其模型的成本高昂,OpenAI 仍然处于亏损状态。随着 OpenAI 开发更复杂的模型,预计支出将继续超过收入增长。OpenAI 可能还需要筹集数百亿美元才能满足这些成本。 除了外部竞争,OpenAI 还要面临 “内忧”。5 月 15 日,自去年年底 “宫斗” 事件之后就未曾露面的 Ilya Sutskever 官宣离开,表示自己已经有了下一个计划,但目前还不能透露细节。 作为 OpenAI 的联合创始人和首席科学家,Ilya Sutskever 主导了 GPT 系列大模型以及 DALLE 系列模型的研发。尽管不曾出席 GPT-4o 的发布会,但在 GPT-4o 主页上,Ilya 的名字出现在 “额外领导者” 一栏。Ilya Sutskever 的离开,对 OpenAI 商业化的影响,仍然难以判断。 追赶 当技术之间的差距逐渐缩小,AI 厂商之间的竞争也步入下半场。 在两场发布会上,OpenAI 和谷歌默契地开始关注端侧。GPT-4o 推出 Mac 版本应用,谷歌则用 Gemini 重塑 Android。 中国银河证券分析认为,GPT-4o 发布预示着 AI Agent 新一轮竞争序幕即将拉开,叠加 macOS 桌面版 ChatGPT 集成,端侧 AI 革命在即,此外 B 端企业服务市场可能会因为 GPT-4o 的易用性和普惠性而迎来新的增长机遇。 新的商机下,谁能抢得先机,占领更多终端,谁就能先行占有市场。 在这方面,谷歌拥有天然的优势。谷歌旗下拥有谷歌搜索、Gmail、Youtube、Chrome 浏览器等一系列应用,构建了强大的生态。 相较之下,作为第一个推出大模型的公司,尽管 OpenAI 在 AI 红利之下,创下了一系列记录。其用户体量和谷歌相比,仍然有着不小差距。 Similarweb 统计数据显示,ChatGPT 今年 4 月全球访问量为 18 亿次,相比 3 月有所上升。与此同时,尽管谷歌 4 月的访问量相比 3 月有所减少,但仍达到了 834.9 亿次。 更不用说,谷歌还拥有 Android。在今年开发者大会上,谷歌对 Android Studio 进行了升级,集成了更多 AI 功能,方便开发者调用 Gemini API 进行软件开发。 英伟达人工智能工作室负责人 Jim Fan 表示,谷歌做对了一件事,他们终于努力将人工智能整合到搜索框中。在他看来,分发是谷歌的护城河。在这一背景之下,Gemini 不一定要做世界上最好的模型,就可以成为世界上使用量最多的模型。 在 OpenAI 和谷歌的这场战争中,谷歌拥有 Android 等一系列产品,而 OpenAI 缺一个苹果。 作为 2023 年手机出货量一哥,去年一年里,iPhone 出货量达到了 2.346 亿台,市场份额为 20.1%。如果 OpenAI 旗下大模型真能取代 “Siri”,成为搭载在数亿苹果设备上的 AI 智能助手,在搜索体验、效率提升上颠覆现有生态,对于 OpenAI 而言,或许一切将变得不同。