--- title: "Llama-3 公布基础训练设施,使用 49000 个 H100" description: "Llama-3 公布基础训练设施,使用 49000 个 H100。Meta 在官网公布了两个全新的 24K H100 GPU 集群,用于训练大模型 Llama-3。预计到 2024 年底,Meta 将拥有 600,000 个 H100 的算力。Meta 作为全球市值最高的科技公司之一,致力于构建通用人工智能。Meta 每天处理数百万亿次 AI 模型的请求,需要高效、灵活的网络来保证数据中心的安全和" type: "news" locale: "zh-CN" url: "https://longbridge.com/zh-CN/news/109799929.md" published_at: "2024-03-13T00:28:51.000Z" --- # Llama-3 公布基础训练设施,使用 49000 个 H100 > Llama-3 公布基础训练设施,使用 49000 个 H100。Meta 在官网公布了两个全新的 24K H100 GPU 集群,用于训练大模型 Llama-3。预计到 2024 年底,Meta 将拥有 600,000 个 H100 的算力。Meta 作为全球市值最高的科技公司之一,致力于构建通用人工智能。Meta 每天处理数百万亿次 AI 模型的请求,需要高效、灵活的网络来保证数据中心的安全和稳定运行。 从训练进度来看,估计 Llama-3 最快将于 4 月末或 5 月中旬上线。受 Sora 影响,很可能是一个多模态模型,并且会继续开源。 3 月 13 日,社交、科技巨头 Meta 在官网公布了两个全新的 24K H100 GPU 集群(49,152 个),专门用于训练大模型 Llama-3。 此外,Llama-3 使用了 RoCEv2 网络,基于 Tectonic/Hammerspace 的 NFS/FUSE 网络存储,继续使用了 PyTorch 机器学习库。 从训练进度来看,估计 Llama-3 最快将于 4 月末或 5 月中旬上线。受 Sora 影响,很可能是一个多模态模型,并且会继续开源。 Meta 表示,预计到 2024 年底,将拥有 600,000 个 H100 的算力。 ## Meta 庞大的 AI 算力集群 Meta 作为全球市值最高的科技公司之一,对 AI 的投入一直非常大,致力于构建造福全人类的 AGI(通用人工智能)。 早在 2022 年 1 月 24 日,Meta 首次公布了 AI 研究超级集群 (RSC) 的详细信息,拥有 16,000 个英伟达 A100 GPU。 该集群在开发全球最受欢迎的类 ChatGPT 模型 Llama 和 Llama 2,以及计算机视觉、NLP 和语音识别、图像生成等发挥了重要作用。 本次新增的 GPU 集群建立在 RSC 成功经验之上,每个集群包含 24,576 个 H100 GPU,能够支持比以往更复杂、参数更高的大模型训练。 ## 集群网络 Meta 每天要处理数百万亿次 AI 模型的请求,所以,使用一个高效、灵活的网络才能保证数据中心安全、稳定的运行。 一个集群是基于 Arista7800、Wedge400 和 Minipack2 OCP 机架交换机,构建了一个具有融合以太网远程直接内存访问 (RoCE) 网络结构的解决方案; 另外一个使用了 NVIDIA Quantum2 InfiniBand 结构,这两种方案都能互连 400 Gbps 端点。 在两个不同集群帮助下,**Meta 可以评估不同类型的互联对大规模训练的适用性和可扩展性,为以后设计和构建更大、更大规模的集群提供更多经验。** 此外,Meta 已经成功地将 RoCE 和 InfiniBand 集群用于大型生成式 AI 工作负载(包括正在 RoCE 集群上对 Llama 3 进行的训练),并且没有出现任何网络瓶颈。 ## 硬件平台 新增的两个集群全部使用 Grand Teton,这是 Meta 内部设计的开放性 GPU 硬件平台,于 2022 年 10 月 18 日首次发布。 Grand Teton 建立在多代人工智能系统的基础上,将电源、控制、计算和结构接口集成到一个机箱中,以获得更好的整体性能、信号完整性和散热性能。具有简化的设计、灵活性,可快速部署到数据中心机群中,并易于维护和扩展等优点。 ## 数据存储 随着大模型的功能趋于多模特,需要消耗大量的图像、视频、音频和文本数据,所以,对数据存储的需求迅速增长。 Meta 新集群的存储部署通过自创的用户空间 Linux 文件系统 API 来满足人工智能集群的数据和检查点需求,**该应用程序接口由 Meta 针对闪存媒体进行了优化的 Tectonic 分布式存储解决方案版本提供支持。** 该解决方案使数千个 GPU 能够以同步方式保存和加载检查点(这对任何存储解决方案来说都是一个挑战),同时还提供了数据加载所需的灵活、高吞吐量的外字节级存储。 Meta 还与 Hammerspace 合作,共同开发、部署并行网络文件系统 (NFS),以满足开发人员对超级 AI 集群的存储要求。 此外,Hammerspace 还能让工程师使用数千个 GPU 对作业进行交互式调试,因为环境中的所有节点都能立即访问代码更改。 将 Meta 的 Tectonic 分布式存储解决方案和 Hammerspace 结合在一起,可以在不影响规模的情况下实现快速功能迭代。 文章来源:AIGC 开放社区,原文标题:《Llama-3 公布基础训练设施,使用 49,000 个 H100》 风险提示及免责条款 市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。 ### Related Stocks - [META.US - Meta](https://longbridge.com/zh-CN/quote/META.US.md) ## Related News & Research | Title | Description | URL | |-------|-------------|-----| | OpenClaw 之父爆猛料:Meta 和 OpenAI 跪着抢人,小扎亲自求收购 | 在一场重磅播客访谈中,OpenClaw 之父 Peter Steinberger 透露,Meta 的扎克伯格和 OpenAI 的 Sam Altman 都在积极拉拢他,甚至扎克伯格亲自表示对 OpenClaw 的赞赏。两大科技巨头同时争抢人 | [Link](https://longbridge.com/zh-CN/news/275962731.md) | | 软件股遭遇 2010 年来最大做空潮,高盛惊呼:市场 “无处可藏”! | 十年最猛烈做空潮席卷美国软件股,摩根士丹利数据显示空头规模创 2010 年以来新高,市场陷入 “先卖后问” 的恐慌。AI 取代白领的担忧引发行业震荡,防御性板块加速跑赢,科技七巨头(Mag 7)亦显颓势。高盛交易主管 Callahan 表示 | [Link](https://longbridge.com/zh-CN/news/275859482.md) | | Stratechery 创始人深度访谈:预警 2029 年大规模 “芯片荒”,SaaS 模式将终结,广告才是 AI 终极商业闭环 | Ben Thompson 警告,台积电保守扩产或致 2029 年全球芯片短缺,巨头需分担建厂风险。在对巨头点评中,他认为 Meta 执行力最佳;谷歌混乱但有韧性;亚马逊自研芯片策略面临风险。展望未来,他指出在数字世界高度发达后,“现场” 体 | [Link](https://longbridge.com/zh-CN/news/276001569.md) | | 期权热点|上周五 NBIS 大涨 9%,部分看涨期权飙升 378% | 美东时间 02 月 13 日,Nebius 期权总成交 179098 张,看涨期权占比 71%,看跌期权占比 28%。 | [Link](https://longbridge.com/zh-CN/news/276030151.md) | | 对话松延动力创始人姜哲源:从亮相春晚到「要规模」 | 2026 年机器人大战 | [Link](https://longbridge.com/zh-CN/news/276060330.md) | --- > **免责声明**:本文内容仅供参考,不构成任何投资建议。