
详细拆解 “苹果智能”:苹果自研、GPT-4o 还是谷歌 Gemini?

ChatGPT 只是一小部分,苹果 AI 战略基于端侧小模型,自研云端模型以及外部大模型等三层模型架构,并注重将 AI 功能无缝整合到操作系统,融入用户使用场景中。
在落后同行们近两年后,苹果终于在本周 WWDC 大会发布 AI 功能。
“不拼 AI 技术,靠的是 OpenAI 大模型,AI 功能没有新意......” 以 “重新定义 AI” 开启新征程的苹果似乎并没让大家满意,本次大会苹果也几乎并没有提 “人工智能”,而称之为 “苹果智能”(Apple Intelligence)。
然而,资本市场却买单了,苹果周三扭转跌势,一夜暴涨 7%,市值攀升 2000 亿美元。

那么是什么让市场扭转态度?所谓 “苹果智能” 到底意味着什么?苹果 AI 战略仅靠 OpenAI?
贯穿苹果生态场景的 AI
与大模型公司蜂拥推出独立的聊天机器人不同,苹果做出的选择是,将 AI 功能整合到用户正在使用的 APP 和产品中,融入用户日常使用场景中。
这样一来,苹果 AI 的功能远比独立聊天机器人能做的要多,可以智能照片编辑、生成笔记和短信摘要、自动转录语音备忘录等等。
苹果利用自研内部模型实现较为简单的 AI 功能,依靠更为强大的外部模型,如 GPT 来实现更高级、复杂的 AI 功能。以全新 siri、写作工具的演示为例:
全新 Siri:苹果公司展示了如何用 Siri 帮忙填写 PDF 表格,Siri 还能找到用户驾照的照片,提取驾照上的号码并输入表格。在另一个演示中,Siri 可以在短信和邮件中搜索朋友发送的食谱。
真正让 Siri 功能得到提升的是 ChatGPT。当要求 Siri 做一些它不知道怎么做的事情时,比如根据最近的购物清单安排出一顿晚餐菜谱,Siri 就会在征求用户允许后,直接调用 GPT 接口,向 ChatGPT 征询意见。用户不必是 ChatGPT Plus 的用户,就可以享受 Siri 这种功能。写作工具:苹果将为备忘录、邮件、Pages 文稿等应用添加总结、改写和校对的 AI 功能,集成写作工具还可以针对短信和电子邮件提出回复建议和不同语气的回复。
但至于更有创意的功能,比如写一首关于 iPhone 的诗,将交给 ChatGPT 来完成。同样的这个写作工具会先征求用户同意,然后才会去咨询 ChatGPT。
场景背后的三层大模型架构
支撑以上场景功能背后的内部、外部模型,可以进一步细分为端侧小模型(Apple On-Device),自研云端模型(Apple Server),以及 ChatGPT 等外部大模型。
第一层架构是苹果端侧小模型,其中一个参数量为 3B,可以直接在手机等终端设备上运行。
此前文章指出,这其实是综合考虑了运行速度、算力需求的结果,大部分苹果端侧模型根据用户个人习惯和个人数据,针对不同的任务预先进行了训练,因此各种需求响应速度也很快。

第二层是苹果自研的更大语言模型,该模型通过私有云计算在苹果芯片服务器上运行。
性能方面,有分析指出该模型虽然没有明确参数量,但其性能可以与 GPT-4 对标。在真实世界提示评估中,大模型 Apple Server 性能强于 GPT-3.5-Turbo,略逊于 GPT-4-Turbo,该模型也针对苹果用户的日常行为进行微调训练。
苹果强调隐私是第一位,内部模型运行过程中这些数据不会被保存,不会被其他人获取。
此前文章提到过,这些服务器都内置使用 Swift 语言编写的安全工具,苹果 AI“只发送完成任务所需的相关数据” 到这些服务器,不会给予对设备上下文信息的完全访问权限。

第三层架构就是和 OpenAI 合作,接入 GPT 大模型。
根据苹果演示,当需要实现更复杂 AI 功能,且在获得用户同意后,可以调用 GPT 接口。
而且可以确定的是,OpenAI 可能不会是苹果唯一的外部合作伙伴。苹果负责软件工程的高级副总裁 Craig Federighi 表示:
苹果计划以后让用户选择自己喜欢的大模型,其中包括谷歌的 Gemini 等。


