本文作者：李笑寅来源：硬 AIOpenAI 抢发重磅新品次日，谷歌也 “放大招” 直接对垒 GPT-4o。当地时间 5 月 24 日周二，年度 Google I/O 开发者大会上，谷歌 CEO Sundar Pichai 发布了一系列与 AI 有关的新品和新功能，包括：AI Overviews 技术生成摘要功能、Gemini 1.5 Pro 上下文窗口拓宽至 200 万 Tokens、多模态 Gemini Nano 模型、第六代 TPU 芯片 Trillium 等。围绕 AI 搜索引擎方面，谷歌带来了一系列更新。值得一提的是，谷歌发布了一款多模态 AI 项目 Astra，用来处理音频、视频等多模态的输入内容。<figure class="image"><img src="https://pub.pbkrs.com/uploads/2024/353f116792114f64125e2355e8c3d8dd?x-oss-process=style/lg" alt="" width="640" height="360" original-src="https://pub.pbkrs.com/uploads/2024/353f116792114f64125e2355e8c3d8dd"/></figure>演示视频显示，Astra 可以通过手机摄像头辨别物体，还能够识别所处位置。<figure class="image"><img src="https://pub.pbkrs.com/uploads/2024/7b764898abf98cda3bc62ae346659211?x-oss-process=style/lg" width="509" height="366" original-src="https://pub.pbkrs.com/uploads/2024/7b764898abf98cda3bc62ae346659211"/></figure>不论是定位还是功能，谷歌这款 AI 助手的到来显然对 GPT-4o 产生了威胁。华盛顿大学专门研究在线搜索的教授 Chirag Shah 对此评论道：<blockquote>“最终，你会有一个真正了解你的代理，可以为你做很多事情，并执行跨任务和跨领域的命令。”</blockquote>谷歌还在发布会上表示，今年夏天开始，Gemini 也将支持语音实时交互，并在今年晚些时候上线实时视频交互。未来几个月内，谷歌也将推出类似于 GPTs 的自定义 AI 助手功能，叫做 Gems，能够与整套 “谷歌全家桶” 联动。<h2 id="6bwp68lwu">第一个 AI“杀手级应用”？</h2>从 OpenAI 和谷歌的发布会来看，GPT-4o 目前只能处理静止图像，但 Astra 可以处理视频，这是一个显著的优势。并且，谷歌在发布会上还对 Gemini 1.5 Pro 大模型进行了诸多更新，使其可以拥有更自然的声音、更长的对话、对音频和图像的更好理解、更多的逻辑推理和规划能力，以及更好的代码生成。不过，GPT-4o 背后的技术创新同样令人深刻。据悉，该原生多模态模型能够直接接收/生成语音，而无需经过语音 - 文字的转化过程，大大缩短了运行周期；并且在执行任务所需的参数量也大幅降低，从而提高运行速度、缩减成本。就当前进展而言，很难判断 OpenAI 和谷歌的 AI 助手中谁更胜一筹，但二者对该领域的重视程度是无疑的。据媒体此前报道，苹果也在考虑在其手机语音助手 Siri 中引入 GPT 技术，以支持 AI 功能。科技巨头们相继发力，是否意味着 AI 助手会成为下一个 AI“杀手级应用”？答案尚不肯定。有分析指出，虽然目前 GPT-4o 和 Astra 展示出的用例都很有趣，但 “几乎没有一个” 是帮助人们完成工作的。也就是说，这两款 AI 助手看似功能强大，但实际效用仍是未知。分析称，如果 AI 助手后续能够更理解用户的个人偏好，可能其 “代理” 属性能够有所增强，帮助用户真正完成日常工作，比如网购、预订、填表……<h2 id="ot0trxy9">AI 手机下一步需要解决什么？</h2>虽然 OpenAI 和谷歌的 AI 助手可以直接通过语音、视频等形式运行，但有观点认为，二者仍不能被称作是一个 AI 助手。原因在于，GPT-4o 和 Astra 虽然都可以回答问题并执行搜索工作，但它们不能真正执行任务。华尔街见闻此前提及，OpenAI 的在发展边缘 AI 方面的痛点即为：端侧应用权限、系统级权限。这可能也是它寻求与苹果合作的原因之一。就目前而言，只要 AI 助手产品还没有真正接入到手机系统中去，Siri 之类的语音助手的地位就无法被撼动。有观点指出，确定性要比 AGI（通用人工智能）更重要，靠谱才是第一的。该观点认为，即使是目前最好的 AI 系统，也没有做足准备真正实现个人助手的功能；而手机自带的语音助手虽然没那么 “有趣”，但至少不会出错。

谷歌-C

谷歌-A

OpenAI

有观点认为，两款 AI 助手看似功能强大，但实际效用仍是未知。

谷歌、OpenAI 指明方向！第一个 AI“杀手级应用”、AI 手机必争之地？