报道:谷歌将开发可控制计算机的人工智能

华尔街见闻
2024.10.27 06:01
portai
我是 PortAI,我可以总结文章信息。

谷歌计划开发名为 “Project Jarvis” 的人工智能,旨在接管用户浏览器,帮助完成日常任务,如研究、购物和航班预订。预计将在 12 月预览,并将由新一代 Gemini 大型语言模型提供支持。尽管谷歌在 AI 基础研究上有积累,但在推理能力方面仍落后于 OpenAI,导致其 Gemini 聊天机器人竞争力不足。

10 月 26 日,据 The Information 报道,谷歌将开发可控制计算机的人工智能,计划最早在 12 月预览这款新的 AI 产品。

报道称,这款产品也称为 “计算机使用代理”,旨在接管用户的浏览器,以帮助消费者完成诸如收集研究、购买产品或预订航班等各种日常任务。据 The Information 援引的三位知情人士表示,该项目的代号为 “Project Jarvis”,与 Anthropic 本周宣布的一款产品类似。

他们还透露,12 月还将发布谷歌下一代旗舰 Gemini 大型语言模型,该模型将为 Jarvis 提供动力

致力于追赶 OpenAI,定制化适配 Chrome

不过,Jarvis 的发布时间表表明,尽管谷歌在 AI 技术的基础研究方面有着一定积累,但谷歌显然还在追赶其竞争对手。目前,谷歌仍在开发具有所谓 “推理能力” 的 AI,而 OpenAI 早在 9 月份就已经推出了这一功能。

分析认为,谷歌的 Gemini 聊天机器人在与 OpenAI 的 ChatGPT 竞争中严重落后,导致企业纷纷转向了 OpenAI 的大型语言模型 LLMs,这也使得谷歌的 Gemini 模型难以迎头赶上。为了提高 AI 开发效率,上周,谷歌将负责 Gemini 聊天机器人的团队并入了其主要 AI 团队 DeepMind.

值得注意的是,当前,AI 开发人员已经将 “代理(agents,即能够完成复杂任务而无需人类监督的 AI 系统)”视为行业的下一阶段。Salesforce、微软和 Workday 等企业纷纷从 OpenAI 和其他公司购买了 LLMs,并竞相使用这一技术开发 AI 代理。

Anthropic 和谷歌则试图通过与个人计算机或浏览器直接交互的软件,将 AI 代理概念推向更深的层次。OpenAI 今年的大部分时间也在开发类似的软件。

知情人士表示,谷歌的这款 AI 代理产品与 Anthropic 推出的产品类似,都是通过频繁截取用户计算机屏幕上的内容,并在采取点击按钮或输入文本等行动前对截图进行解释以响应用户的命令。

不过,两家公司的代理产品也存在关键差异:

Anthropic 表示其产品可以操作安装于电脑不同应用程序上,而 Jarvis 目前只能操作浏览器,并且已经针对谷歌的 Chrome 浏览器进行了 “定制化” 调整

知情人士还表示,至少在目前,Jarvis 的目标用户为那些希望实现网页日常任务自动化的人。在谷歌今年春天的开发者大会上,首席执行官 Sundar Pichai 暗示,未来的 Gemini 版本可以自主执行多项操作,如帮助用户退回一双鞋子等。

产品响应速度慢,安全性或受质疑

知情人士还提示道,“Jarvis” 的计划是暂定的,也可能会有所变动。报道称,谷歌可能会先向少数早期测试者发布该产品,以帮助识别和修复其不足之处。该代理目前运行速度相对较慢,因为模型需要在采取每个行动前思考几秒钟。

此外,由于谷歌还需要访问客户的隐私信息如登录密码和信用卡信息等,才能访问不同的网站来完成任务或根据客户的要求进行购买。

分析指出,谷歌需要让人们相信,其 AI 代理能够安全地处理他们的个人数据,这是它执行任务所必需的。

除此之外,LLMs 还有一些普遍的漏洞,比如可能会产生错误答案,此前,谷歌在其搜索引擎中使用 LLM 驱动的对话式答案,出现了许多明显的错误。