本文综合自 - 系统化投资。在人工智能浪潮下,英伟达无疑是站在风口浪尖的一家公司,成为了首家市值达到 1 万亿美元的芯片制造商。而英伟达之所以能独领风骚,一个关键原因在于其广受人工智能领域追捧的芯片产品,即 A100 芯片及更高一代的 H100 芯片,目前这些高端芯片及相应的显卡已是一卡难求。而就在去年 11 月发布的 H200,预计于 2024 年第二季度开始供货,到时必然引起抢购。微软亚洲研究员的高级研究员张弋近期在播客节目中感叹,现在居然到了整个地球都拿不出足够的 A100 芯片的奇怪场景。一年前,几乎无人料到这一情形。英伟达 2020 年推出的 A100 芯片现在是有价无市,而乘着 ChatGPT 爆红的 H100 更是被大公司疯狂抢购。这也让英伟达的业绩一路高歌,股价更是节节高升。人工智能领域的初创公司 Core Weave 创始人兼首席执行官 Brannin McBee 不禁感叹:H100 是地球上最稀缺的工程资源之一。这句表态足以让人窥得英伟达现在的盛景。但世上芯片千千万,为何只有英伟达的芯片成为人工智能领域独一无二的玩家?而英伟达这一向来在显卡称霸的公司,又为何能在深度学习和人工智能领域打下这么大的一片江山?微软的两次推进1999 年,初露头角的英伟达首次推出了 GPU 这一概念。在此之前,包括英特尔在内的 CPU 厂商都坚信图形处理是 CPU 的活,CPU 干的事情越多越好,将图形工作独立到另一附属处理器上的想法十分鸡肋。当时,图形应用领域中又以搞游戏的日本厂商话语权最重。日系主机的 CPU 很强,大部分开发工作都集中于 CPU 之上,因此 GPU 并没有得到多少市场空间。转机在于,不服气的微软想要冲击属于日本厂商的行业领先地位,其开发出了 Direct X 这一标准化的 API 图形接口,此后大量的图形功能从 CPU 里面移植出来,转到 GPU 之上。加上微软另一产品 Xbox 的推出,其 CPU、GPU 各司其职的搭配,打破了行业内 CPU 芯片一家独大的局面。而英伟达是当年硬件领域唯几跟着微软旗帜前进的公司,并在 GPU 这条道上一路走到黑。此后,微软又推动了另一次变革,引入统一渲染技术,即让 GPU 将图形绘制的顶点计算和之后的渲染两个步骤进行合并。它和显卡领域另一知名公司 ATI 合作了 GPU Xenos,成功应用了这一技术。无心插柳统一渲染只是图形应用上的一步,但却给英伟达带来了完全不同的发展路径,可以说是英伟达在后来 GPU 发展,甚至介入深度学习领域中的起点。在看到统一渲染架构之后,英伟达果断的把自己从前的 GPU 架构推倒重来。其 GPU 流处理器被进行了细致的分组,变成一个个小型流处理器且能单独运行,解决了流处理器此前被绑定无法独立运行而被迫闲置的问题。这奠定了英伟达后来革命性 CUDA 架构的出世。由于英伟达的流处理器是很独立且标准的单元,极易控制和调度,这让原本只能串行处理的任务可以被并行处理。这让编程难度大大降低。与此同时,英伟达的竞争对手 ATI 却因为早期没有投入硬件架构变革,因为沿用过去的串行设计,沉没成本越来越高,让其革新变得越来越难且越来越贵,最后成功被英伟达挤出显卡市场。此后,英伟达又在 2017 年引入了 Tensor Core 计算单元概念,其专门为深度学习而设计,支持更低精度的运算从而大幅节省了模型算力。这一专用的加速单元很大程度上排挤了 CUDA 处理深度学习的空间,但也同时打了英伟达竞争对手一个措手不及,让 AI 专用芯片也不再吸引人。于是,英伟达 GPU 机缘巧合地成为 AI 领域最被认可的硬件。赌赢趋势2003 年,“快速迭代,不断试错” 的英伟达搞了一个不受欢迎的项目。其开发了一款 Soc 芯片,将基于 ARM 架构的 CPU 与自己的 GPU 集成在一起。自 Soc 芯片之后,英伟达每隔几年都发布一些芯片。2015 年,其推出了 Tegra K1,使用 Arm 公版 CPU 和自己的开普勒架构 GPU,但由于功耗和发热皆不尽人意,对大部分使用者来说很是折磨。但业内人士却对这些挫折十分认可。一位投资人曾指出,英伟达在守住 GPU 基本盘的同时,不断在新的领域伸出触角,并让无数买它显卡的人陪它分摊成本。他还称赞道,虽然英伟达的很多东西,如 CUDA 在一段时间内看不到落地的场景,但在试错过程中它建立起了完整的生态,并在一股新风向袭来的时候,成功站上了风口。这也是英伟达 GPU 打败其他芯片,成功吃下 AI 红利的一个原因。一方面,GPU 的通用性更佳,比专用芯片更适应变化;另一方面,英伟达拥有完整生态,让它的 GPU 成为当下最合适的那个选择。事实上,当 AI 一瞬间爆发,行业内的企业无奈发现,GPU 是简单高效运行生成式 AI 模型的最好选择,一个本用来玩游戏的 GPU 不太可能切换去跑 AI 程序,目前只有英伟达的 GPU 能够做到运行 AI 模型。而英伟达的故事里还有一个小彩蛋。2016 年,英伟达发布了第一款深度学习的超级计算机 DXG-1。令人称道的是,英伟达首席执行官黄仁勋当年仿佛能预知未来,将第一台 DXG-1 捐给了当时还是初创企业的 OpenAI。2022 年,OpenAI 带着横空出世的 ChatGPT 引爆了人工智能概念,也带动英伟达成为芯片领域中的香饽饽。这一段缘分不得不令人感慨,但又像是黄仁勋远见之下的善果。CPU 与 GPU 的区别CPU 和 GPU 都是运算的处理器,在架构组成上都包括 3 个部分:运算单元 ALU、控制单元 Control 和缓存单元 Cache,但是,三者的组成比例却相差很大,在 CPU 中缓存单元大概占 50%,控制单元 25%,运算单元 25%;在 GPU 中缓存单元大概占 5%,控制单元 5%,运算单元 90%。