智能手机革命性的技术突破停滞已久。GPT 出现后，业界逐渐达成共识：在智能终端（包括手机）落地端侧大模型，将再次拉开激动人心的重大创新的大幕。在上海 MWC 2023 期间，荣耀 CEO 赵明宣称，荣耀将在智能手机端推动部署端侧大模型，以此作为荣耀新一轮产品技术攻坚的起点。但在 7 月 12 日，赵明没有披露其新一代折叠屏 Magic V2 端侧 AI 大模型的相关信息。目前，端侧大模型的呈现形式均为软件。华尔街见闻了解到，荣耀 AI 大模型也将呈以软件形式，很可能被整合在 MagicOS 8.0 版本中。不同于荣耀提出的在智能手机端部署 AI 大模型的能力着眼于未来，今年 2 月，高通已首次在 Android 智能手机上部署 Stable Diffusion 模型，十多秒即能生成 AI 图像。高通产品管理高级副总裁兼 AI 负责人 Ziad Asghar 认为，大模型将迅速重塑人机交互方式。<h2>高通先行：洞察个体需求</h2>7 月 12 日，荣耀发布新一代旗舰机 “Magic V2”。在此之前的 6 月 29 日，荣耀 CEO 赵明曾公开宣称，Magic V2 将具有革命性的越级体验。荣耀希望以此与行业一起，打破苹果一家独大局面。赵明同时表示，荣耀将率先将 AI 大模型引入端侧。但在 7 月 12 日，赵明对 Magic V2 的技术特性或产品特征等信息的阐述，着重的是该机型的厚度（9.9mm）和重量（231 克），却并未涉及端侧 AI 大模型。此举与赵明此前对 Magic V2 的端侧 AI 大模型吹风形成鲜明对比。若是细品赵明在 6 月 29 日的说法——“未来将率先把 AI 大模型引入端侧”，赵明或许意有所指。据华尔街见闻了解，未来荣耀要发布的 MagicOS 8.0 版，在部署 AI 大模型方面，很可能就会有所动作。荣耀的 AI 大模型在端侧到底具有什么样的能力，这是个什么样的软件矩阵（包括编译/解码器、算力平台、能耗控制、参数数量和开发工具等），目前不得而知。从行业层面看，高通已在今年 2 月首次在智能手机上实现了 AI 模型部署。到今年 5 月，高通部署的 Stable Diffusion 模型参数已增至 10 亿 +。Stable Diffusion 是一个从文本到图像的生成式 AI 扩散模型，能基于任何文本输入，在数十秒内创作出逼真图像。目前 AI 绘画最火的模型是 Midjorney 和 Stable Diffusion，但目前 Midjourney 模型没有开源。Stable Diffusion 由 StabilityAI 公司于 2022 年提出，论文和代码都已开源。Stable Diffusion 是 Diffusion 的改进版，主要作用是解决 Diffusion 模型的速度问题。关于文字怎么生成图片，技术原理解释起来过于复杂。简单来说，从 Stable Diffusion 最初的名字 “Latent Diffusion Model（LDM）” 看，本质是压缩了图片的像素，尺寸变小，再通过编译器（为何提及荣耀端侧大模型包含了什么样的编译器？）将扩散压缩后的图片还原成原始尺寸，其余的过程和 Diffusion 模型差不多类似。在压缩图片的过程中，提升了文本转化成图片的速度，这是 Stable Diffusion 的主要功能。回到高通在安卓手机中部署的 Stable Diffusion 模型。实现文本转图像，只是大模型在端侧实现部署时，就像宇宙的一粒尘埃，这只是智能手机未来革命性的应用体验的一个极小的 “元素”。通过部署端侧大模型的数字助手，将成为一种超越想象的存在。未来的用户，将有幸通过智能手机操控一切商业服务，包括餐饮、各类订票、专业咨询、娱乐、摄影摄像、撰稿、办公、参与金融活动等等。这就真能实现高通这位 AI 负责人 Ziad Asghar 说的那样，“大模型有能力真正重塑我们与应用交互的方式”。只有真正在端侧部署 AI 大模型，智能终端的 “智能” 一词，才能名副其实。赵明说，“端侧 AI 大模型的使命就是更好地理解用户：知道我几点睡觉，知道我喜欢吃什么，能解决我的即时需求，相当于拥有洞察我需求的能力。”做到拥有对使用者的个性需求洞察，原因是每部智能手机包含的个人应用数据，与能理解文字、影音和图像等多模态输入的大语言模型结合，最终智能手机的数字形式（比如虚拟数字人）就能极为精准地掌握使用者的偏好。更重要的是，这样强悍的个性化体验，还能建立在保护个体隐私的基础上。<h2>怎样解决端侧 AI 模型短板</h2>目前，尚无哪家技术公司能真正全面部署端侧 AI 大模型。高通和华为成为了先行者。两者的区别在于高通更加系统，从底层技术入手，比如利用高通 AI 软件栈（Qualcomm AI Stack）执行全栈 AI 优化；而华为则更侧重具体的应用体验，但相比高通，华为的探索以其具象，从而显得更具有节点尝试特征。从技术角度看，高通在智能手机中部署 Stable Diffusion 模型，实际上是将 Stable Diffusion 模型整合在手机的混合 AI 架构中，进而将之作为量化、编译和硬件加速优化等 AI 技术，以此支撑高度智能的应用体验。荣耀未来若真的在 MagicOS 8.0 中部署端侧 AI 大模型，也将是这个技术原理。实际上，通过自然语言（NLP）搜索，华为 P60 已能以之匹配出与描述相符的照片。这一功能，也是端侧 AI 大模型庞大强悍能力中的一个极小的应用点。这个应用体验的实现，背后有华为多模态大模型技术和模型小型化处理技术的支撑。华为将自然语言智能搜图模型整合进了鸿蒙系统（HarmonyOS），实现与众不同的精准自然语言手机图库搜索体验。相比华为，高通的端侧 AI 大模型部署，更侧重系统性的特征。比如，高通的全栈 AI 研究，是指优化跨应用、神经网络模型、算法、软件和硬件。针对 Stable Diffusion，高通从 Hugging Face（开源模型库公司，旗下明星开源库是 “Transformers”）的 FP32 1-5 版本开源模型入手，通过量化、编译和硬件加速推动优化，使其能在搭载第二代骁龙 8 移动平台的手机上运行。在智能终端部署 AI 大模型，必须要解决性能和能耗问题。首先，通过让大模型在高通专用 AI 硬件上高效运行，并降低内存带宽消耗，量化不仅能提高性能，还可降低功耗。这些包括诸如自适应舍入（AdaRound）等高通 AIMET 量化技术，能在更低精度水平保持模型的准确性，而无需做重新训练。其次，以高通 AI 模型增效工具包（AIMET）训练后量化，可实现将大模型从 FP32 压缩为 INT8。这是基于高通 AI Research 创造的技术所开发的工具，目前已集成进 Qualcomm AI Studio 中。这部分能力由量化完成，其作用是将大模型在精度不变的情况下，从浮点数转变成整数，节省计算时间，以及在确保模型性能的同时，压缩整体规模，使之更容易部署在终端。此外，AI 模型能以最高性能和最低功耗高效运行的关键，在于编译器。AI 编译器将输入的神经网络转化为能在智能应用终端上运行的代码，同时针对时延、性能和功耗做持续优化。值得一提是高通 5G 移动平台骁龙 8 Gen2 首度集成的 AI 专用 Hexagon 处理器，采用了独立的专用供电系统，支持微切片推理、INT4 精度和 Transformer 网络加速等，能在提供更高性能的同时，降低能耗和内存占用。这也是高通 AI 软件栈的组成部分。这些技术能应用于构成 Stable Diffusion 的所有组件模型，即基于 Transformer 的文本编码器、VAE 解码器和 UNet。这对于让大模型在终端上的顺利运行至为重要。高通的全栈 AI 优化，最终实现了通过 Stable Diffusion 模型在智能手机上的运行，能达成 15 秒内执行 20 步推理，并生成一张 512x512 像素的图像。这是在智能手机上最快的推理速度，能媲美云端时延，且用户文本输入完全不受限制。无论是大模型公司，还是像高通这样的终端软硬件技术公司，抑或者是荣耀和华为一类的智能终端商，当行业实现上下游协同，共同推动将 AI 大模型在端侧实现泛在部署，最终将真正引发新一轮智能终端的技术创新浪潮，切实担起赵明所称的在智能终端带来革命性的应用体验重任。

高通

华为

荣耀的意外、华为的努力和高通的默进。

赛道 Hyper | AI 大模型向智能移动端侧狂奔