--- title: "Llama-3 公佈基礎訓練設施,使用 49000 個 H100" description: "Llama-3 公佈基礎訓練設施,使用 49000 個 H100。Meta 在官網公佈了兩個全新的 24K H100 GPU 集羣,用於訓練大模型 Llama-3。預計到 2024 年底,Meta 將擁有 600,000 個 H100 的算力。Meta 作為全球市值最高的科技公司之一,致力於構建通用人工智能。Meta 每天處理數百萬億次 AI 模型的請求,需要高效、靈活的網絡來保證數據中心的安全和" type: "news" locale: "zh-HK" url: "https://longbridge.com/zh-HK/news/109799929.md" published_at: "2024-03-13T00:28:51.000Z" --- # Llama-3 公佈基礎訓練設施,使用 49000 個 H100 > Llama-3 公佈基礎訓練設施,使用 49000 個 H100。Meta 在官網公佈了兩個全新的 24K H100 GPU 集羣,用於訓練大模型 Llama-3。預計到 2024 年底,Meta 將擁有 600,000 個 H100 的算力。Meta 作為全球市值最高的科技公司之一,致力於構建通用人工智能。Meta 每天處理數百萬億次 AI 模型的請求,需要高效、靈活的網絡來保證數據中心的安全和穩定運行。 從訓練進度來看,估計 Llama-3 最快將於 4 月末或 5 月中旬上線。受 Sora 影響,很可能是一個多模態模型,並且會繼續開源。 3 月 13 日,社交、科技巨頭 Meta 在官網公佈了兩個全新的 24K H100 GPU 集羣(49,152 個),專門用於訓練大模型 Llama-3。 此外,Llama-3 使用了 RoCEv2 網絡,基於 Tectonic/Hammerspace 的 NFS/FUSE 網絡存儲,繼續使用了 PyTorch 機器學習庫。 從訓練進度來看,估計 Llama-3 最快將於 4 月末或 5 月中旬上線。受 Sora 影響,很可能是一個多模態模型,並且會繼續開源。 Meta 表示,預計到 2024 年底,將擁有 600,000 個 H100 的算力。 ## Meta 龐大的 AI 算力集羣 Meta 作為全球市值最高的科技公司之一,對 AI 的投入一直非常大,致力於構建造福全人類的 AGI(通用人工智能)。 早在 2022 年 1 月 24 日,Meta 首次公佈了 AI 研究超級集羣 (RSC) 的詳細信息,擁有 16,000 個英偉達 A100 GPU。 該集羣在開發全球最受歡迎的類 ChatGPT 模型 Llama 和 Llama 2,以及計算機視覺、NLP 和語音識別、圖像生成等發揮了重要作用。 本次新增的 GPU 集羣建立在 RSC 成功經驗之上,每個集羣包含 24,576 個 H100 GPU,能夠支持比以往更復雜、參數更高的大模型訓練。 ## 集羣網絡 Meta 每天要處理數百萬億次 AI 模型的請求,所以,使用一個高效、靈活的網絡才能保證數據中心安全、穩定的運行。 一個集羣是基於 Arista7800、Wedge400 和 Minipack2 OCP 機架交換機,構建了一個具有融合以太網遠程直接內存訪問 (RoCE) 網絡結構的解決方案; 另外一個使用了 NVIDIA Quantum2 InfiniBand 結構,這兩種方案都能互連 400 Gbps 端點。 在兩個不同集羣幫助下,**Meta 可以評估不同類型的互聯對大規模訓練的適用性和可擴展性,為以後設計和構建更大、更大規模的集羣提供更多經驗。** 此外,Meta 已經成功地將 RoCE 和 InfiniBand 集羣用於大型生成式 AI 工作負載(包括正在 RoCE 集羣上對 Llama 3 進行的訓練),並且沒有出現任何網絡瓶頸。 ## 硬件平台 新增的兩個集羣全部使用 Grand Teton,這是 Meta 內部設計的開放性 GPU 硬件平台,於 2022 年 10 月 18 日首次發佈。 Grand Teton 建立在多代人工智能系統的基礎上,將電源、控制、計算和結構接口集成到一個機箱中,以獲得更好的整體性能、信號完整性和散熱性能。具有簡化的設計、靈活性,可快速部署到數據中心機羣中,並易於維護和擴展等優點。 ## 數據存儲 隨着大模型的功能趨於多模特,需要消耗大量的圖像、視頻、音頻和文本數據,所以,對數據存儲的需求迅速增長。 Meta 新集羣的存儲部署通過自創的用户空間 Linux 文件系統 API 來滿足人工智能集羣的數據和檢查點需求,**該應用程序接口由 Meta 針對閃存媒體進行了優化的 Tectonic 分佈式存儲解決方案版本提供支持。** 該解決方案使數千個 GPU 能夠以同步方式保存和加載檢查點(這對任何存儲解決方案來説都是一個挑戰),同時還提供了數據加載所需的靈活、高吞吐量的外字節級存儲。 Meta 還與 Hammerspace 合作,共同開發、部署並行網絡文件系統 (NFS),以滿足開發人員對超級 AI 集羣的存儲要求。 此外,Hammerspace 還能讓工程師使用數千個 GPU 對作業進行交互式調試,因為環境中的所有節點都能立即訪問代碼更改。 將 Meta 的 Tectonic 分佈式存儲解決方案和 Hammerspace 結合在一起,可以在不影響規模的情況下實現快速功能迭代。 文章來源:AIGC 開放社區,原文標題:《Llama-3 公佈基礎訓練設施,使用 49,000 個 H100》 風險提示及免責條款 市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。 ### Related Stocks - [META.US - Meta](https://longbridge.com/zh-HK/quote/META.US.md) ## Related News & Research | Title | Description | URL | |-------|-------------|-----| | Russia removed WhatsApp from its official internet directory | Russia has officially removed WhatsApp from its internet registry, effectively banning the app for its over 100 million | [Link](https://longbridge.com/zh-HK/news/275699546.md) | | WhatsApp says Russia tried to fully block service to push state app | Russia has attempted to fully block WhatsApp, owned by Meta Platforms, as part of its efforts to promote state-owned pla | [Link](https://longbridge.com/zh-HK/news/275681571.md) | | Palmer Luckey Says Don't Trust A Boss Who Pretends Money Doesn't Matter, Oculus Founder Who Once Earned Minimum Wage Explains | Palmer Luckey, founder of Oculus, advises employees to be cautious of bosses who claim money doesn't matter, reflecting | [Link](https://longbridge.com/zh-HK/news/276012773.md) | | Transcendent Capital Group LLC Takes Position in Meta Platforms, Inc. $META | Transcendent Capital Group LLC acquired a new stake in Meta Platforms, Inc. (NASDAQ:META) during Q3, purchasing 1,503 sh | [Link](https://longbridge.com/zh-HK/news/275745568.md) | | Meta CTO says cuts to Reality Labs are 'real cause for sadness' — but the company is still 'bullish' on VR | Meta CTO says cuts to Reality Labs are 'real cause for sadness' — but the company is still 'bullish' on VR | [Link](https://longbridge.com/zh-HK/news/275224665.md) | --- > **免責聲明**:本文內容僅供參考,不構成任何投資建議。