作者:周源/华尔街见闻高通新一代骁龙旗舰移动平台,整体性能直逼 PC 级,重新定义了什么叫 “性能”。移动级消费芯片性能直追 PC 级芯片,这是从所未有的事。10 月 22 日,高通发布的骁龙 8 至尊版,成为高通成立以来性能最强悍的旗舰移动平台,其技术释放直如泉水 “喷涌”,激射而出,故能傲视业界,难觅对手。本代骁龙 8 旗舰,并没有顺延从 2021 年以来骁龙 8Gen X 的命名规则,转而改称骁龙 8 至尊版,英文名 “Snapdragon 8 Elite”,这是为什么呢?因为骁龙 8 至尊版采用和骁龙 X Elite 相同的 CPU 架构——高通自研 Oryon CPU 架构,放弃了此前在移动芯片组中使用的 Kryo CPU 架构。这个超级计算平台(不仅仅是一颗 SoC 芯片),CPU 采用高通历史上从未有过的全大核设计;综合性能、能效表现和 AI 能力,在骁龙 8Gen 2(降低功耗)和骁龙 8Gen 3(提升 AI 性能)的基础上,达到了一个全新高度。综合而言,骁龙 8 至尊版的技术重点瞄准突破智能手机的端侧 AI 体验。安卓阵营今年推出的令人惊叹的 AI 体验,比如荣耀在 10 月 30 日推出 “一句话的事儿” 的端侧 AI 智能体,能解构并自动达成用户模糊意图所指的实际需求,就来自骁龙 8 至尊版的底层技术能力;小米 15 Pro 推出的无网通信功能,也在骁龙 8 至尊版的 NB-NTN(非地面网络)卫星通信技术看到了影子。全大核结构统治芯片设计评价任何芯片的性能优劣,有三个维度,统称 PPA。也就是,Power(能耗)、Performance(性能)和 Area(面积)。其中,能耗排第一,其次是性能,排第三的面积,主要考量与成本相关。这个优良特性也被骁龙 8 至尊版继承:基于 GeekBench 的测试结果,骁龙 8 至尊版的 CPU 的单/多核性能均提升 45%,综合能效提升 44%,整体节能提升 27%;GPU 性能和能效提升均为 45%,参照对比第三代骁龙 8(即骁龙 8Gen 3)标准。与骁龙 8Gen3 和骁龙 8Gen 2 相比,骁龙 8 至尊版同样采用台积电工艺。与前两代有所不同的是,本代旗舰平台采用台积电 3nm 工艺制程(第二代 N3E),这个技术规格与苹果 A18 系列、联发科天玑 9400 相同。本代移动旗舰平台,并非简单的 SoC 芯片集成,之所以称之为算力平台,是因为高通将超过 40 个不同组件全部封装在一起。除了 CPU、NPU、还包括射频、收发器、电源管理、超声波指纹识别和移动连接芯片等等,具有全方位的移动、AI 推理、综合应用(比如影像、游戏、屏幕解锁等)和通信连接能力。高通将之命名为骁龙 8 至尊版,即 “Elite”,与 2023 年推出的笔电芯片骁龙 X Elite 相似,原因就是高通首次将骁龙 X Elite 的 Oryon CPU 架构引入移动平台,代际为第二代。Oryon CPU 架构主要针对日益增长的 AI 性能需求而设计。因此,骁龙 8 至尊版是高通在首颗专为端侧生成式 AI 打造的移动 AI 芯片——骁龙 8Gen 3 的基础上进行了又一次技术大迭代版,是一个实打实的 AI 移动芯片集成平台。与高通历史上所有 SoC 旗舰移动芯片最大的不同,除了这是一个集成多达 40+ 个不同功能芯片的移动平台,还有其 CPU 结构第一次采用了全大核设计,CPU 架构也从 Kryo 变成 Oryon。基于第二代自研 Oryon CPU 架构,骁龙 8 至尊版配置了两个超级核心(Prime),主频高达 4.32GHz;与之搭配的是六个 “性能核心”(Performance Core),主频达到惊人的 3.53GHz,这与联发科天玑 9400 的超超大核 3.62GHz 的主频非常接近。换句话说,天玑 9400 的超超大核,就主频参数而言,仅相当于骁龙 8 至尊版性能核心主频的水平。骁龙 8 至尊版的两个超级核心的主频,已经不逊色于 PC 级 CPU 的主频表现,故而性能强悍。高通甚至不无骄傲的公开表示,采用第二代 Oryon CPU 架构的核心,比英特尔寄予厚望的 Lunar Lake PC 处理器更强大。“第二代 Oryon CPU 与友商(指英特尔)推出的最好的 PC 产品(即 Lunar Lake)相比表现如何?” 高通首席执行官 Cristiano Amon 表示,“与竞品相比,我们的 CPU 性能提升了 62%,这比英特尔刚刚发布的产品要快得多,同时能效提高了 190%。”从 CPU 结构看,骁龙 8 至尊版采用了 2 个超级内核和 6 个性能内核,小核消失。这么说的话,骁龙 8Gen 3 是高通最后一次采用三丛集 CPU 架构的移动平台。至此,Arm 于 2011 年推出的 big.LITTLE 架构正式退出骁龙旗舰移动平台的历史舞台,全大核时代正式宣告来临,芯片 CPU 设计思路从此为全大核结构统治。CPU 和 NPU 分别有哪些提升?虽然骁龙 8 至尊版也采用了和骁龙 X Elite 相类似的 Oryon CPU 架构,但前者用的 Oryon 已是第二代,那么差别在哪里?高通专为移动平台做了特别改进,除 CPU 配置不同,另外的优化主要是提升缓存。每个超级内核(Prime)和每个性能内核(Performance Core)的 L1 级缓存分别提升至 192KB 和 128KB,总计 1152KB,超过 1MB(1024KB);同时提升 L2 级缓存至 24MB,2 个超大核独享 12MB,6 个性能核分享 12MB。据高通介绍,这是一个全新的微架构,具有 “即时唤醒”(Instant wake)功能,能减少各个 CPU 核心的频繁电源循环。以前,高通采用的 Kryo CPU 架构使用的 “上电序列”(Power-Up Sequence)涉及重置代码,以便核心做好运行准备。但现在,高通以 “即时唤醒” 技术,允许核心立即执行下一条指令,消除了上电序列带来的延迟,从而进一步提升运行效率。同时,骁龙 8 至尊版支持的 LP-DDR5X 的速率为 10.7Gbps(带宽),主频也达到了 5.33GHz,比前骁龙 8Gen 3 的 4.8GHz 和骁龙 8Gen 2 的 4.2GHz 分别有 11.04% 和 26.90% 的提升。高通表示,采用第二代高通 Oryon CPU 的微架构和新的内存技术,最终将带来骁龙 8 至尊版出色的用户体验,包括更快的应用启动速度、无缝的多任务处理和先进的生成式 AI 功能。对了,与骁龙 8 至尊版带来的全新 CPU 架构和新的内存系统相比,AI 才是这个移动平台更引人关注的焦点。既然说到 AI 性能,那么高通始自骁龙 8Gen 2 采用的 AI 计算专用芯片 “Hexagon NPU” 就绕不过去,这是高通 AI 引擎的核心所在。本代移动旗舰平台,对 Hexagon NPU 做了哪些提升?首先,增加了标量(Scalar)和向量(Vector)加速器数量:标量加速器有 8 个核心,向量加速器有 6 个核心;其次,数据吞吐能力全线增强;第三,有个类似超大核的张量(Tensor)加速器,总体上提升了 45% 的 NPU 性能和能效,基础大语言模型上的 token 生成速率翻倍。若做作用或任务拆分,张量(Tensor)加速器主要负责 LVM(Logical Volume Manager)逻辑卷 AI 模型加速(主要作用于存储器资源效率管理);标量(Scalar)加速器负责大语言模型(LLM)AI 模型加速,向量(Vector)加速器支持长文本(Long Conetext support),三者共同提升了整体运算能力,同时支持超长文本和 LLM 加速。目前业界流行的部分大语言模型应用的响应速度,骁龙 8 至尊版处理速度超过 70 tokens/s,而骁龙 8Gen 3 的这个速度是每秒 20 tokens(70 亿参数 LLM)。本代移动平台的 AI 能力,基于大幅升级的 Hexagon NPU,能支持在端侧构建个性化多模态 AI 智能体。这对提升用户体验尤为关键。骁龙 8 至尊版能在底层对包括自动语音识别(ASR)、大语言模型(LLM)、大视觉模型(LVM)和全新多模态大模型(LMM)等在内的多模态模型提供支持。通过异构计算,这些 AI 模型能在高通 AI 引擎的不同内核上运行。这些技术能力,能为智能手机用户带来前所未见的全新体验。比如,智能手机的传感器和摄像头,能根据用户的日常喜好,在端侧本地创建属于个人的神经网络(NPU),AI 个人智能体因之就能更有效理解用户需求,相当于一个像真人那样的助理。AI 个人智能体和影像消除在体验层面,靠着 Hexagon NPU 模块,智能手机能看懂屏幕所显示的画面,甚至能理解用户的复杂意图,并拥有即时给出解决方案的技术能力。比如,用户将手机摄像头直接对准想要了解的事物,再向手机提问,手机能调用摄像头的实时画面,对之做出解构分析并给出答案。还有一些更复杂的应用,比如用户对着手机用语音说一句话,智能手机有能力做用户模糊意图的任务解构,全程自动完成用户意图的需求满足。这就相当于给用户提供了一个高度 “类人化”(像真人一样)的 AI 个人助理,这是像科幻场景那样的全新体验。这种体验,在刚刚于 10 月 31 日荣耀发布的搭载内置了荣耀 AI 个人智能体 YOYO 的 MagicOS 9.0 的新一代旗舰 Magic 7 系列上,已经落地。Magic 7 系列搭载了骁龙 8 至尊版。荣耀号称搭载 MagicOS 9.0 的智能手机,用户只需说 “一句话”,就能搞定诸如点餐饮、取消隐藏的订阅费用等复杂需求,大为拓展了 AI 手机的高度智慧体验,比 OPPO 喜欢的用 AI 技术修图、小米喜欢的 AI 摄影,无疑向前迈出了巨大的一步。这种智能终端的 AI 新体验,实际上是以骁龙 8 至尊版的 Hexagon NPU 强悍底层 AI 技术为基础。骁龙 8 至尊版能实现用户复杂意图理解这种相对更高难度的 AI 体验,相对来说,简单的消除静态照片多余路人这种事,就是小菜了。但是,高通作为技术豪门,不会止步于此。这次,骁龙 8 至尊版的 AI 能力,还被扩展到了视频领域。高通为其 AI 引擎 Hexagon NPU 配备了一个协同硬件模块:AI ISP(图像信号处理器:Image Signal Processor)。AI ISP 的主要功能是提升计算摄影表现力,比如将更多的处理管道(Processing Pipeline)放在 RAW 域中运行。这意味着当 AI ISP 在做自动对焦、自动校正白平衡和自动曝光等拍摄动作时,支持 AI 辅助增强功能,最终能实现更棒的影像表现力,比如更好的画质(更高的清晰度或亮度、更好的色彩平衡)、更高帧率的视频等。此外,高通用两颗 Micro NPU,再加上两颗 AI ISP、一颗 DSP(数字信号处理器:Digital Signal Processor)和一个内存,共同组建了高通传感器中枢(Sensing Hub),整体 AI 性能提升 60%,AI 推理速度提升 45%。 从参数上看,AI ISP 的像素吞吐量提升 33%,每秒达 43 亿像素;同时,这个 ISP 还能支持最多三个最高各 4800 万像素的摄像头和以 30FPS 录制零延迟快门的视频。所谓的新增 AI 辅助增强功能体现在哪里?很简单,就是能做到在 4K 分辨率下实现 60fps 实时的视频拍摄质量。那么,Hexagon NPU 和 AI ISP 如何协同?作用是什么?高通以 Hexagon Direct Link 技术实现两者的协同,Hexagon NPU 能直接访问 ISP 传感器的原生原始数据,利用 NPU 的技术能力辅助 ISP 做更快的图像分割(Insight AI),进一步理解影像中的各个元素,实现更快的 “虚化” 或 “物件消除”。对,这就是像从 OPPO Find X7 系列开始推出的 AI 照片消除功能。这次,在骁龙 8 至尊版上,还实现了视频一键消除:只需在 30FPS 视频中选择想要擦除的对象,就能实现消除。基于 Hexagon NPU 的强悍性能,以及与 AI ISP 的高度协同,整个处理过程被置于端侧,而无需上云,故无延迟,体验一流。GPU 的切片架构和无网通信历代骁龙移动平台的升级重点,除了 CPU、NPU 和 ISP 之外,还包括 GPU 和 Modem。其中,GPU 是骁龙旗舰移动平台的传统强项模块,因之业界号称骁龙移动平台是买 GPU 送 CPU。也许是技术品类太多,高通这次还是没有为骁龙 8 至尊版的新一代 Adreno GPU 取一个响亮的营销名称。骁龙 8 至尊版的全新 Adreno GPU 首次采用切片(slice)架构——将着色器核心和其他固定功能块分成不同的切片:共分三组,每组频率都是 1.1GHz(上代为 900MHz),三组接受指令处理器(Cammand Processor)的统一调度。当渲染复杂场景时,可以直接在 GPU 上存储 12MB 数据(图形缓存),减少向骁龙 8 至尊版内存发送额外图形数据(RAM),延迟相应也更低,故应用运行更流畅、电池寿命更长、图形更清晰,3D 环境也更逼真。这种设计思路与英伟达的 GPC/TPC/SM 分层结构、AMD 的 CU 计算单元,英特尔的渲染切片(Render Slice:Xe-GPU 架构的核心组件)类似。其中,英特尔的 Render Slice,包含 4 个 Xe-Core 和 1 个光线追踪单元,以及其他一些 IP,如几何管线、光栅化管线、采样器和像素后端等,构成英特尔 Arc GPU 的基础。通过这种设计,骁龙 8 至尊版允许使用更动态的资源分配、更高的时钟速度和更好的负载平衡,还能通过关闭切片降低功耗。据高通给出的数据,与上代 Adreno GPU 相比,这次推出的新 GPU 性能提高 40%,能效提高 40%,光线追踪性能提高 35%(得益于升级后的 Snapdragon Elite Gaming 技术)。所谓光线追踪(简称光追),通俗说,就是模拟各种光线效果。比如反射和折射、散射和色散等现象,为手游带来栩栩如生的光线、反射和照明效果,实现更接近真实环境光的精致游戏画面。为了提升游戏体验,骁龙 8 至尊版也像骁龙 8Gen 2 那样,将虚幻引擎 5(Unreal Engine 5)的一项核心能力——Nanite 解决方案首次引入端侧移动平台,同时将虚幻引擎 5 升级到 5.3。骁龙 8Gen 2 曾在端侧引入虚幻引擎 5 的 Metahuman 框架。Nanite 解决方案,允许开发者在游戏和实时渲染项目中,使用高多边形模型而对性能造成显著影响;Metahuman 框架则致力于创建逼真的数字人类角色。通过 Nanite 采用全新的虚拟几何系统(Virtualized Geometry System),能使低端机器也可以运行复杂的大模型。这对于提高游戏和实时渲染项目的可访问性和性能至关重要。这个系统的可贵之处在于其非常智能,能做到只处理并渲染人眼能观察到的细节,并采用高度压缩的数据格式,从而大大减轻渲染压力。华尔街见闻注意到,本代 Adreno GPU 依然仅支持 OpenGL ES 3.2 和 Vulkan 1.3,与骁龙 8Gen 2 完全一样,作用是提升手机对大型手游的图形处理效率。在通信连接方面,骁龙 8 至尊版支持 AI 增强 5G 和 Wi-Fi 连接的移动平台,集成骁龙 X80 5G 基带及射频系统,也就是第二代 5G AI 处理器。骁龙 80 5G 基带拥有多项行业第一:首次支持下行 6 载波聚合、首次支持 6 个 Rx 接收器路径、首次支持 AI/5G-A 融合、首次支持 AI 多天线管理、首次支持 CPE AI 增强通信和首次支持 NB-NTN(非地面网络)卫星通信。值得一提的是,小米 15 Pro 用的就是骁龙 8 Elite,还首次搭载小米星辰通信系统,能让手机在完全没有网络的情况下,实现半径 3.5 公里内的双向通话。这个功能,与骁龙 8 Elite 的支持 NB-NTN(非地面网络)卫星通信技术——允许在没有地面网络覆盖的地区实现通信连接,是不是很像?