智能手机革命性的技术突破停滞已久。GPT 出现后,业界逐渐达成共识:在智能终端(包括手机)落地端侧大模型,将再次拉开激动人心的重大创新的大幕。在上海 MWC 2023 期间,荣耀 CEO 赵明宣称,荣耀将在智能手机端推动部署端侧大模型,以此作为荣耀新一轮产品技术攻坚的起点。但在 7 月 12 日,赵明没有披露其新一代折叠屏 Magic V2 端侧 AI 大模型的相关信息。目前,端侧大模型的呈现形式均为软件。华尔街见闻了解到,荣耀 AI 大模型也将呈以软件形式,很可能被整合在 MagicOS 8.0 版本中。不同于荣耀提出的在智能手机端部署 AI 大模型的能力着眼于未来,今年 2 月,高通已首次在 Android 智能手机上部署 Stable Diffusion 模型,十多秒即能生成 AI 图像。高通产品管理高级副总裁兼 AI 负责人 Ziad Asghar 认为,大模型将迅速重塑人机交互方式。高通先行:洞察个体需求7 月 12 日,荣耀发布新一代旗舰机 “Magic V2”。在此之前的 6 月 29 日,荣耀 CEO 赵明曾公开宣称,Magic V2 将具有革命性的越级体验。荣耀希望以此与行业一起,打破苹果一家独大局面。赵明同时表示,荣耀将率先将 AI 大模型引入端侧。但在 7 月 12 日,赵明对 Magic V2 的技术特性或产品特征等信息的阐述,着重的是该机型的厚度(9.9mm)和重量(231 克),却并未涉及端侧 AI 大模型。此举与赵明此前对 Magic V2 的端侧 AI 大模型吹风形成鲜明对比。若是细品赵明在 6 月 29 日的说法——“未来将率先把 AI 大模型引入端侧”,赵明或许意有所指。据华尔街见闻了解,未来荣耀要发布的 MagicOS 8.0 版,在部署 AI 大模型方面,很可能就会有所动作。荣耀的 AI 大模型在端侧到底具有什么样的能力,这是个什么样的软件矩阵(包括编译/解码器、算力平台、能耗控制、参数数量和开发工具等),目前不得而知。从行业层面看,高通已在今年 2 月首次在智能手机上实现了 AI 模型部署。到今年 5 月,高通部署的 Stable Diffusion 模型参数已增至 10 亿 +。Stable Diffusion 是一个从文本到图像的生成式 AI 扩散模型,能基于任何文本输入,在数十秒内创作出逼真图像。目前 AI 绘画最火的模型是 Midjorney 和 Stable Diffusion,但目前 Midjourney 模型没有开源。Stable Diffusion 由 StabilityAI 公司于 2022 年提出,论文和代码都已开源。Stable Diffusion 是 Diffusion 的改进版,主要作用是解决 Diffusion 模型的速度问题。关于文字怎么生成图片,技术原理解释起来过于复杂。简单来说,从 Stable Diffusion 最初的名字 “Latent Diffusion Model(LDM)” 看,本质是压缩了图片的像素,尺寸变小,再通过编译器(为何提及荣耀端侧大模型包含了什么样的编译器?)将扩散压缩后的图片还原成原始尺寸,其余的过程和 Diffusion 模型差不多类似。在压缩图片的过程中,提升了文本转化成图片的速度,这是 Stable Diffusion 的主要功能。回到高通在安卓手机中部署的 Stable Diffusion 模型。实现文本转图像,只是大模型在端侧实现部署时,就像宇宙的一粒尘埃,这只是智能手机未来革命性的应用体验的一个极小的 “元素”。通过部署端侧大模型的数字助手,将成为一种超越想象的存在。未来的用户,将有幸通过智能手机操控一切商业服务,包括餐饮、各类订票、专业咨询、娱乐、摄影摄像、撰稿、办公、参与金融活动等等。这就真能实现高通这位 AI 负责人 Ziad Asghar 说的那样,“大模型有能力真正重塑我们与应用交互的方式”。只有真正在端侧部署 AI 大模型,智能终端的 “智能” 一词,才能名副其实。赵明说,“端侧 AI 大模型的使命就是更好地理解用户:知道我几点睡觉,知道我喜欢吃什么,能解决我的即时需求,相当于拥有洞察我需求的能力。”做到拥有对使用者的个性需求洞察,原因是每部智能手机包含的个人应用数据,与能理解文字、影音和图像等多模态输入的大语言模型结合,最终智能手机的数字形式(比如虚拟数字人)就能极为精准地掌握使用者的偏好。更重要的是,这样强悍的个性化体验,还能建立在保护个体隐私的基础上。怎样解决端侧 AI 模型短板目前,尚无哪家技术公司能真正全面部署端侧 AI 大模型。高通和华为成为了先行者。两者的区别在于高通更加系统,从底层技术入手,比如利用高通 AI 软件栈(Qualcomm AI Stack)执行全栈 AI 优化;而华为则更侧重具体的应用体验,但相比高通,华为的探索以其具象,从而显得更具有节点尝试特征。从技术角度看,高通在智能手机中部署 Stable Diffusion 模型,实际上是将 Stable Diffusion 模型整合在手机的混合 AI 架构中,进而将之作为量化、编译和硬件加速优化等 AI 技术,以此支撑高度智能的应用体验。荣耀未来若真的在 MagicOS 8.0 中部署端侧 AI 大模型,也将是这个技术原理。实际上,通过自然语言(NLP)搜索,华为 P60 已能以之匹配出与描述相符的照片。这一功能,也是端侧 AI 大模型庞大强悍能力中的一个极小的应用点。这个应用体验的实现,背后有华为多模态大模型技术和模型小型化处理技术的支撑。华为将自然语言智能搜图模型整合进了鸿蒙系统(HarmonyOS),实现与众不同的精准自然语言手机图库搜索体验。相比华为,高通的端侧 AI 大模型部署,更侧重系统性的特征。比如,高通的全栈 AI 研究,是指优化跨应用、神经网络模型、算法、软件和硬件。针对 Stable Diffusion,高通从 Hugging Face(开源模型库公司,旗下明星开源库是 “Transformers”)的 FP32 1-5 版本开源模型入手,通过量化、编译和硬件加速推动优化,使其能在搭载第二代骁龙 8 移动平台的手机上运行。在智能终端部署 AI 大模型,必须要解决性能和能耗问题。首先,通过让大模型在高通专用 AI 硬件上高效运行,并降低内存带宽消耗,量化不仅能提高性能,还可降低功耗。这些包括诸如自适应舍入(AdaRound)等高通 AIMET 量化技术,能在更低精度水平保持模型的准确性,而无需做重新训练。其次,以高通 AI 模型增效工具包(AIMET)训练后量化,可实现将大模型从 FP32 压缩为 INT8。这是基于高通 AI Research 创造的技术所开发的工具,目前已集成进 Qualcomm AI Studio 中。这部分能力由量化完成,其作用是将大模型在精度不变的情况下,从浮点数转变成整数,节省计算时间,以及在确保模型性能的同时,压缩整体规模,使之更容易部署在终端。此外,AI 模型能以最高性能和最低功耗高效运行的关键,在于编译器。AI 编译器将输入的神经网络转化为能在智能应用终端上运行的代码,同时针对时延、性能和功耗做持续优化。值得一提是高通 5G 移动平台骁龙 8 Gen2 首度集成的 AI 专用 Hexagon 处理器,采用了独立的专用供电系统,支持微切片推理、INT4 精度和 Transformer 网络加速等,能在提供更高性能的同时,降低能耗和内存占用。这也是高通 AI 软件栈的组成部分。这些技术能应用于构成 Stable Diffusion 的所有组件模型,即基于 Transformer 的文本编码器、VAE 解码器和 UNet。这对于让大模型在终端上的顺利运行至为重要。高通的全栈 AI 优化,最终实现了通过 Stable Diffusion 模型在智能手机上的运行,能达成 15 秒内执行 20 步推理,并生成一张 512x512 像素的图像。这是在智能手机上最快的推理速度,能媲美云端时延,且用户文本输入完全不受限制。无论是大模型公司,还是像高通这样的终端软硬件技术公司,抑或者是荣耀和华为一类的智能终端商,当行业实现上下游协同,共同推动将 AI 大模型在端侧实现泛在部署,最终将真正引发新一轮智能终端的技术创新浪潮,切实担起赵明所称的在智能终端带来革命性的应用体验重任。