赛道 Hyper | 英特尔 AI 芯片性能猛兽 Lunar Lake 登场

华尔街见闻
2024.06.07 01:37
portai
我是 PortAI,我可以总结文章信息。

全新架构带来激增的 AI 性能。

作者:周源/华尔街见闻

英特尔下一代面向 AI PC 的专用移动 AI 芯片架构——Lunar Lake,终于露出全部真容。

6 月 4 日,英特尔 CEO 帕特·基辛格(Pat Gelsinger)在 COMPUTEX 2024 上正式公布 Lunar Lake 架构的所有技术细节:CPU、GPU、NPU 性能提升,能耗降低,综合 AI 算力达 120TOPS,原先剧透消息称这个数值超过 100TOPS。

与首代酷睿 Ultra Meteor Lake 改变 CPU 结构相比,完全为 AI PC 而设计的 Lunar Lake,采用了全新的架构设计:如 P-Core(性能核)的 Lion Cove 架构,E-Core(能效核)的 Skymont 架构,性能堪比独显架构 Xe2 核显,NPU 数量从两颗增加到四颗,首次采用封装级内存(将 LPDDR5x 内存与计算模块封装在一起)。

还有,业界轰传英特尔采用了台积电代工:用 N3B 工艺代工计算模块(Compute Tile),台积电N6 负责平台控制模块(Platform Controller Tile)代工。

巨变:P/E-Core 新架构优势

Lunar Lake 架构设计包括七个方面:模块化结构、封装工艺、P 性能核、E 能效核、混合架构与线程调度、GPU 核显、NPU AI 引擎和平台连接等部分。

这个新架构的主要亮点有三个:首先这是英特尔首次完全采用台积电代工(但英特尔官方没有加以明确)的芯片;其次,用这个新架构的全新 AI PC 芯片上集成了 LPDDR5x 内存,等于采用这款芯片的笔记本电脑无需额外配置内存,类似智能手机的 SoC(系统级芯片)结构;第三,Lunar Lake 用了英特尔 Foveros 封装工艺。

在计算核心架构层,Lunar Lake 拥有 4 个 P-Core(性能核),4 个 E-Core(能效核),共计 8 线程,即 4P+4E/8T。

巨大的设计变化来自 P-Core 和 E-Core:前者采用全新 Lion Cove 架构,后者则使用 Skymont 架构。这取代了原先 Meteor Lake 架构的 Cresmont(节能高能效核),而在 Core(酷睿)Ultra 上出现的 LP E-Core(低功耗能效核)设计也被放弃。

其中,E 核运行速度与 LP-E 核心一样,功耗却仅 LP-E 内核的 30%,在性能上可提升 2 倍或 4 倍(单/多线程)。

更重要的变化是:E-Core 内部不像 P-Core 那样用 Ring 总线连接,而是让其具备 LP E-Core 的特性,并配合台积电N3B 制程效率和新架构设计下每周期指令数(IPC:Instructions Per Cycle)提升,从而获得显著的增益效果。

Lion Cove 的作用,在技术上,完成了在 CPU 设计中投入更多的缓存,以此解决 CPU 性能问题。随着 CPU 系统设计愈发复杂,缓存子系统有必要跟进增加,以此保证性能与执行效率的全面提升。

另外,Lion Cove 架构还有个重大的设计变革,英特尔甚至认为这种变革会对未来的芯片设计产生深远影响:英特尔将设计重心放在了创建更大规模的分区(Partition),改变了以往的小分区(Small Partition)设计。

这种设计的好处是能降低芯片整体的设计成本和复杂度,而未来的设计迭代升级也会变得更容易。

P-Core 采用新的 Lion Cove 架构,还有能耗控制方面的好处:P-Core 的 IPC(每个时钟周期指令数:Instructions Per Cycle)提升幅度达 30%,动态电源效率提升了 20%。

Lunar Lake 的 E-Core 采用的 Skymont 架构有什么好处呢?

英特尔称,用 Skymont 架构的 E-Core 能与上代 P-Core 性能持平(E-Core 作为能效核,性能远不如 P-Core 性能核);不仅如此,在部分工作场景下,性能甚至能超越之。

这如何实现?

Skymont 架构使用了全新设计,包括在一个时钟周期内同时解码并执行 9 条指令,也就是 9 宽解码,比上代 E-Core 的 Crestmont 架构增加 50%。一般来说,解码阶段宽度越大,处理器性能越强,能更有效地利用资源,加快指令执行速度。

使用这套架构的 E-Core,功耗效率提升明显;在单线程性能提升 1.7 倍的同时,功耗仅为 Meteor Lake LP E-Core 的 30%;用 Skymont E-Core 集群与 Meteor Lake 的 LP E-Core 同时比较,功耗相同,多线程性能提升 2.9 倍。

首次采用封装级内存

Lunar Lake 有个令人惊叹的技术 “创新”:这是英特尔首次采用在处理器内部封装整合内存的做法,英特尔将之称为 “Memory on Package”(封装级内存)。

换句话说,搭载 Lunar Lake 处理器的笔记本不支持独立的 SO-DIMM 标准的内存(LPDDR5x),故而在后期不能扩展内存以升级性能。

若无法扩展内存,岂不是和眼下的超薄笔记本(内存被集成在 PCB 主板上)一样?

Lunar Lake 的物理结构主要分三部分:计算模块和平台控制器模块,这两部分沿用了 Meteor Lake 的分离式模块化设计方式,组成了 Lunar Lake 的计算性能核;为了加固计算核心结构,英特尔还加一个没有电路和性能功能的填料模块(Filler Tile)。

计算模块(整合了最新的 Xe2 GPU、第四代 NPU、IPU)、平台控制器模块,加上那个没有实际作用的填料模块,通过英特尔的 Foveros 封装工艺,将之封装在基础模块(Base tile)上,变成一个整体。

相比前代,Xe2 GPU 的游戏和图形性能提升 1.5 倍,AI 吞吐量提升超 3.5 倍,算力高达 67 TOPS。

内部通信方面,计算模块通过 Home Agent、Coherency Agent 等连接主要单元,平台控制器模块则通过 IO Coherency 连接,以确保内部的一致性,最终实现高效通信。

Lunar Lake 的技术亮点,或称为重大的设计变化,在于之上封装了两颗内存。在 CPU 平面图的上半部分,封装了两颗 64bit 32GB LPDDR5X(SO-DIMM 标准)内存:最高频率 8500MHz,每颗芯片有四个 16-bit 通道,总容量最高为 32GB。

英特尔称这种设计能节省 40%的功耗和释放多达 250 平方毫米的主板面积,故而能显著提升电池续航,从而留出更多空间给笔记本的其他设计。

作为一款面向 AI PC 的 AI 芯片架构,Lunar Lake 用全新的 NPU 4 和 Arc Xe2-LPG 核显提供 AI 动力。NPU 4 在 INT 8 上的算力达 48TOPS,大幅超过微软 Copilot+ AI PC 算力标准(40TOPS),从而满足未来的 AI PC 性能需求。

其中,对比此前的 Meteor Lake 的 NPU 区区 11.5TOPS 算力,Lunar Lake 的 NPU 增加了两倍数量,内存带宽增加 1 倍,时钟速度从 1.4GHz 提高到 1.95GHz,故而达成 48 TOPS 和约 2-4 倍的整体性能。

Lunar Lake 的 NPU 4,叠加 Arc Xe2-LPG 核显后,其综合算力高达 120TOPS,但缺点是全负荷运行耗电量会相应增多。

这个问题怎么解决?英特尔有办法。

英特尔通过与微软合作,将英特尔硬件线程调度器(ITD:Intel Thread Director)做了增强,旨在与微软 Windows Copilot 以及其他 AI 助手做针对性优化。

英特尔表示,有了新的线程导向器,Windows 现在能创建 containment zones,将大多数实际工作负载让 Skymont E 核承担,解决综合算力高企带来的耗电量增加问题,以保证用户的高效续航体验。

Lunar Lake 的架构师设计创新点确实不少,比如英特尔还取消了超线程技术。在常见的笔记本电脑时钟速度下,Lunar Lake 的 E 核性能竟然比 Meteor Lake 的 P 核更强,单线程性能提升高达 20%,四个 Lion Cove P 核还实现了 IPC 高达 14% 的性能提升。

据英特尔的预定计划,Lunar Lake 将于今年三季度上市。