
二代 FSD 也有算力焦虑?特斯拉不惜血本用上 GDDR6

特约作者 / 周彦武(业内资深专家)
编辑 / 汽车之心
特斯拉最新的自动驾驶大脑 FSD,不惜血本用上了 GDDR6。
如上图中的 D9ZPR,正反两面各用了 8 颗,总计 16 颗,每颗容量 2GB。
但最近 ChatGPT 带动 GDDR6 需求暴增,价格略有上涨,目前每片价格大约 10-13 美元。
实际上,特斯拉 HW4.0 的座舱控制器里还有 4 颗 GDDR6,每颗容量也是 2GB,合计 40GB 即 200 美元以上。
大部分厂家都选择 LPDDR4 或 LPDDR5。
例如英伟达的中配 Orin 开发盒子是 4 颗 8GB 即 32GB 的 LPDDR5,只需要大约 50-60 美元,这与特斯拉 HW 4.0 中的第二代 FSD 价格相差 150 美元。
特斯拉 HW3.0 使用的是 8 片 2GB 的 LPDDR4,每片大约 3.5 美元,8 片只有 28 美元。
当然,这当中最大赢家是美光,车载领域 80% 的 DRAM 市场均来自美光。美光是美国唯一存储器公司,也是除英特尔外美国本土几乎唯一的硬科技公司(AMD 的制造均由台积电完成)。
总体来看,车载领域目前都是使用 LPDDR,特斯拉再次开创先河:首次在车载领域使用 GDDR。
01、什么是内存?
在细说 GDDR 前,我们先来了解内存的概念。
运算系统有两种存储:
一种是断电后存储内容不丢失的非易失性存储器(英语:Non-Volatile Memory,缩写:NVM),最常见的 NVM 是 Flash 存储器;
还有一种是断电后存储内容就消失的易失性存储器,即 RAM。
RAM 又分为两类:
- DRAM(Dynamic Random Access Memory,动态随机存取记忆体);
- SRAM(Static Random Access Memory,静态随机存取记忆体)。
通常内存指的是 RAM,准确地说应该叫缓存或暂存。
NVM 原理类似电容,因此其读出写入速度很慢,跟 CPU 速度比差太多。为了 NVM 和 CPU 两者协调工作,加入内存做中转缓冲,可以说,RAM 计算单元与数据或指令存储之间的桥梁。
对于 AI 加速器来说,内存尤为重要。
所谓 AI 运算,就是矩阵乘积累加,输入矩阵与权重矩阵之间的乘积累加,需要频繁地读取权重矩阵或者说训练好的模型参数。
模型参数越大,自然就需要更高的带宽,一次性读出更多的参数。
小模型的鲁棒性和可移植性很差,因此人类 AI 的发展方向就是越来越大的模型,参数越来越多。
机器视觉的奠基者 ResNet 50 是 2500 万个参数,自动驾驶领域目前正火的 Transformer 在 9 千万到 3.4 亿之间,ViT 变种是 20 亿,GPT3 是惊人的 1750 亿。
自动驾驶迟早也会达到这个规模。
模型平均每两年会增加 240 倍,内存带宽两年只会增加两倍。
SRAM 速度很高,高性能 AI 芯片需要尽量多的 SRAM。
SRAM 价格也高,差不多每 MB 价格是 80-100 美元,通常 AI 训练用芯片需要 50MB 以上的 SRAM,也就意味着 5000 美元的成本。
SRAM 需要 6 个晶体管,并且晶体管之间的通道即有效宽度 Weff 在目前主流的 FinFET 工艺下,SRAM 的缩微很困难。
台积电 N3 即 3 纳米工艺,N3 具有 0.0199μm²的 SRAM 位单元大小,与 N5(5 纳米工艺)的 0.021μm² SRAM 位单元相比仅缩小了~5%。
改进后的 N3E(3 纳米扩展)变得更糟。
因为它配备了 0.021 μm² SRAM 位单元(大致转换为 31.8 Mib / mm²),这意味着与 N5 相比根本没有缩放,再延伸就是芯片的成本增加了,性能却没有。
目前 AI 模型尺寸越来越大,超过 20GB 已是常态。
使用 SRAM 来存储,芯片价格轻易突破 100 万美元,即使是不太在乎价钱的服务器也承受不起。
因此,我们只能退而求其次——HBM,即 High Bandwidth Memory,每 GB 的 HBM 成本大约 20 美元。
如上图,简单概括:
HBM 是将 SDRAM 用 TSV(硅通孔)工艺堆叠起来,如同盖楼,层和层之间会有金属层等间隔,同时通过 TSV 联通各个存储单元。
TSV 是内存能够堆叠的关键,它能够在各个存储层之间以及层内构建出硅通孔的通路,存储单元的访问就通过这些通孔完成。
在了解 HBM 之前,我们需要明白几个内存基本概念——密度、速度和带宽。
密度指的就是容量。
速度有两种描述,一是频率即 MHz,另一种是 MT/s,后一种方式越来越成为主流。
速度就好比高速公路的最高时速,带宽就好比高速公路的车道数。
HBM 是以牺牲速度来提高带宽的。
1MHz=1000KHz=1000000Hz 等于 1 秒内高低电平信号切换 100 万次。
MT/s 全称 Million Transfers Per Second 意为每秒百万次传输。
1T/s 和 1Hz,这两个单位前者指的是每秒做了一次传输,后者指每秒 1 时钟周期。
因为 DDR 内存信号每个时钟信号可以传输 2 次,所以实际的传输速率为 1Hz 等于 2T/s,1MHz 等于 2MT/s。
在 DDR5 发布后,内存性能规格的单位选择了 MT/s 为主,英特尔和金士顿、美光、威刚、芝奇等 PC 行业的领头企业也纷纷跟进这一策略,将内存性能的衡量单位改为 MT/s。
对 CPU 来说,主要是串行数据流,速度就显得较为重要。
而 AI 和 GPU 是并行计算,带宽则比速度重要。
- 系统最大内存带宽 = 内存标称频率 * 内存总线位数 * 通道数
- 实际内存带宽 = 内存标称频率 * 内存总线位数 * 实际使用的通道数
- 实际内存带宽=内存核心频率 * 内存总线位数 * 实际使用的通道数 * 倍增系数
我们以车载领域的 LPDDR 为例来描述带宽:
历代 LPDDR 参数,注意位宽等同于 Maximum density,这是 CPU 一次能拿走的数据最大密度,用于 GPU 的最大密度就可以轻易达到 384bit。
特斯拉初代 FSD 使用的 LPDDR4,型号是 MT53D512M32D2DS-046 AAT,容量为 16Gb,总共 8 片,I/O 频率 2133MHz,单通道的话,其带宽为 2133*64*16,即 273GB/s。
HBM 采用物理堆叠,它的总线位宽可以是并联形式,每个 Die 有 2 个 128bit 位宽的通道,HBM1 只有 4 层堆叠叫做 4-Hi,带宽可以达到 4*2*128=1024bit,HBM2 的 I/O 频率是 1107MHz,倍频系数是 2。
以英伟达 V100S 加速器为例,用了 4 颗 HBM2,带宽是 1107*2*4*1028/8/1000,即 1134GB/s——比 LPDDR4 要高很多。
HBM3 频率提到 1600MHz,堆叠提高到 16 层,比 HBM1 高出 4 倍。
英伟达最新旗舰 H100 有多个版本,其中顶配使用 HBM3 内存 5 颗,每颗 16GB,带宽是 5*1600*2*16*1028,也就是 3350GB/s。
HBM 通过基板的硅互联层与主处理器连接,物理距离远远小于 PCB 上内存与处理器之间的连接,几乎逼近 L3 缓存的连接距离,尽管其运行频率不高,但是这个速度是真实速度,没有任何水分。
另外需要指出的是,DDR 包括 LPDDR 和 HBM 这类存储,其真实的核心频率很低,在 133MHz 到 200MHz 之间。
不过为了数字漂亮,几乎没有厂家提到核心频率。
核心频率提高会导致功耗大增,这也是内存速度一直比较慢的真正原因。
来一张 H100 的高清大图:
H100 分两种,一种是 SXM,另一种是 PCIe。
H100 SXM5 的 INT8 算力峰值可达 4000TOPS,PCIe 是 3200TOPS。
注意 H100 主芯片旁边的 6 个紧贴着的芯片(有一个是空的,为了对称散热设计的,实际只有 5 个),那就是昂贵的 HBM3,由韩国 SK Hynix 提供。
目前全球只有 SK Hynix 能够量产 HBM3,也只有英伟达一个用户。
HBM 缺点一是贵,二是必须 3D 堆叠,三是散热不易。
因为它是堆叠的,考虑到成本比较高,只有服务器和 AI 训练领域才有人用 HBM,推理领域还未见到。
HBM 再退一步,就是今天的主角:GDDR。
02、为何特斯拉不惜血本用 GDDR6?
GDDR,可以说是廉价版 HBM。
GDDR 是 Graphics Double Data Rate 的缩写,是为 GPU 而生的内存。
GPU 和 AI 处理器,没有 L1/L2/L3 级缓存的概念,因为它的核心数量太多,不可能给每个核心配备缓存,那样做成本太高了。
GDDR 从第五代完全成熟,之前的四代都是基于传统 DDR,昙花一现生命周期很短,而 GDDR5 生命周期已经超过 10 年。
GDDR5 最大提升是频率提高了 4 倍,采用了所谓 QDR 技术,DDR 是半双工,QDR 是全双工,它有两条数据总线,两条都可以同时读写。
比如 GDDR5 的 I/O 频率通常是 1750MHz,实际 I/O 频率是 1750*4=7000MHz。单颗 GDDR5 的带宽就是 32*7G/8=28GB/s。
GDDR6 再进一步,将预取 prefetch size 数据从 8n 增加到 16n,带宽再翻倍,单 bank 通常可达 56GB/s。
以特斯拉的 16 颗 GDDR6 为例,带宽是 56*16=896GB/s,是初代 LPDDR4 的 3 倍多,但跟 HBM3 差别还是很大。
上图为各种 GDDR 参数对比:
GDDR5X 的总线是 352 位,就是最大支持 11 颗 32bit 的 GDDR 并联,合计总线宽度 352bit。
GDDR6 就是最大支持 12 颗 32bit 的 GDDR6 并联,合计总线宽度 384 位。
GPU 是并行计算,CPU 想做到这么高的位宽就比较困难。
2019 年开始出现 GDDR6X,也就是 GDDR7 的预演版,最大改变是引入 PAM4 编码,单颗达到 84GB/s,12 颗带宽超过 1TB/s。
虽然理论上 GDDR6X 采用 PAM4 信号调制方式,配合 MTA 编码技术,GDDR6X 的能效提升很多。
同样是 8 颗显存,GDDR6X 能效比相比 GDDR6 的每比特能耗要低 15%。
实际测试中,搭载 10GB GDDR6X 显存的 RTX3080 的显存功耗高达 70W,24GB GDDR6X 显存的 RTX3090 的显存功耗更是上到 130W,是十足的耗电大户。
不过 GDDR 和 HBM 都是针对并行计算的,注重带宽,不注重速度。
GDDR6 的 CSA 延迟是 DDR4 的 2 倍多,也就是说 GDDR 和 HBM 不适合用在 CPU 上。
CPU 是有序列的串行运算为主,因此英伟达 Grace Hopper Superchip 的 CPU 部分还是使用了 LPDDR5X。
而目前全球算力最高的设备,是大约 25 万美元的英伟达 DGX-H100,CPU 部分是英特尔的 Sapphire Rapids 即 Xeon W3XXX 系列(旗舰产品近 6000 美元一片)。
此前的 DGX-A100,CPU 是 AMD 的 EPYC Rome。
对应 CPU 的是 SK Hynix 的 DDR5,当然英特尔的 Xeon 做并行计算也可以,毕竟它是 56 核心。所以英特尔 Sapphire Rapids 也支持 HBM2E,但首选还是 DDR5。
特斯拉的二代 FSD 也有 CPU 部分,即 20 核心的 ARM Cortex-A72。
但特斯拉对 AI 算力更在意,或者说特斯拉有算力焦虑。
英伟达在算力方面太强大了,特斯拉宁肯弱化一点 CPU 也要上 GDDR6,并且是不惜成本。
特斯拉热衷于大模型,为了保证足够高的效率,我推测特斯拉三代 FSD 芯片估计要使用昂贵的 HBM3,至少要装下全部权重模型,估计容量不低于 50GB。
单这部分成本,就不低于 1000 美元,未来特斯拉三代 FSD 的成本最低也在 1500 美元以上。
同样,如果自动驾驶行业还热衷于人工智能,那么 5 年后的自动驾驶芯片成本最低也要 2000 美元以上。
$Tesla(TSLA.US) $NVIDIA(NVDA.US)
The copyright of this article belongs to the original author/organization.
The views expressed herein are solely those of the author and do not reflect the stance of the platform. The content is intended for investment reference purposes only and shall not be considered as investment advice. Please contact us if you have any questions or suggestions regarding the content services provided by the platform.


