成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Llama-3背后基礎訓練設施全揭秘:兩個24KGPU集群,共4.9萬個H100

譯文 精選
人工智能
展望未來,我們認識到昨天或今天奏效的方法可能無法滿足明天的需求。因此,我們不斷地評估和完善基礎設施的各個方面,從物理和虛擬層到軟件層乃至更多層面。我們的目標是創建既靈活又可靠的系統,以支持快速演進的新模型和研究。

作者丨Kevin Lee、Adi Gangidi、Mathew Oldham

編譯丨諾亞

出品 | 51CTO技術棧(微信號:blog51cto)

日前,Meta在官網公布了兩個全新的24K H100 GPU集群(49,152個),并就新集群的技術細節做了逐一剖析。它們各自擁有超過2.4萬個GPU,并在硬件、網絡、存儲、設計、性能和軟件等方面上,專為支持大型語言模型如Llama 3進行訓練而深度優化。

此次公告也被Meta團隊視為其基礎設施路線圖中的一個關鍵步驟。“到2024年底,我們的目標是繼續擴大基礎設施建設,其中包括350,000個NVIDIA H100 GPU,構成的計算能力相當于近600,000個H100 GPU的組合。”

要在人工智能開發領域保持領先地位就意味著要引領對硬件基礎設施的投資。硬件基礎設施對于AI的未來發展起著至關重要的作用。今天,我們在Meta公布了兩個版本的24,576-GPU數據中心規模集群的具體細節。這些集群支持我們當前及下一代的人工智能模型,包括作為已公開發布的LLM——Llama 2的繼任者Llama 3,以及GenAI和其他領域的AI研究與開發工作。

一、深入探索Meta的大規模人工智能集群

Meta 的長期愿景是構建開放且負責任地構建的通用人工智能 (AGI),以便它能夠廣泛可用,讓每個人都能從中受益。在我們努力實現 AGI 的同時,我們也專注于擴展我們的集群以提供所需動力。我們在AGI方面取得的進步催生出新產品、我們旗下一系列應用的新AI功能,以及以AI為核心的新型計算設備。

盡管我們在構建AI基礎設施方面有著悠久的歷史,但在2022年首次公開介紹了搭載16,000個NVIDIA A100 GPU的AI研究超級集群(RSC)。RSC加速了我們開放且負責任的AI研究進程,幫助我們構建第一代先進AI模型。它在Llama和Llama 2的發展過程中發揮了重要作用,并且仍在發揮作用,同時也在計算機視覺、自然語言處理、語音識別、圖像生成甚至編程等應用領域的先進AI模型研發中扮演著重要角色。

圖片圖片

二、深入了解技術細節

我們的新一代AI集群建立在RSC的成功和經驗教訓基礎之上。我們專注于構建端到端的人工智能系統,特別強調提升研究者和開發者的體驗及工作效率。這些集群內部采用高效的高性能網絡架構,結合關鍵存儲解決方案,在每個集群中配備多達24,576個NVIDIA Tensor Core H100 GPU,使得這些新版本的集群能夠支持比RSC時期更大的、更復雜的模型訓練。這種硬件配置為推進AI產品開發中的新一代(GenAI)技術和研究鋪平了道路。

1.網絡部分

在Meta,我們每天處理數以萬億計的AI模型執行任務。要在如此大規模上提供這些服務,需要高度先進且靈活的基礎架構。通過定制大量自己的硬件、軟件和網絡結構,我們可以針對AI研究人員優化端到端體驗,同時確保數據中心高效運行。

為此,我們構建了一個基于Arista 7800系列交換機配合Wedge400和Minipack2 OCP機架式交換機構建的遠程直接內存訪問(RDMA)在聚合以太網(RoCE)網絡結構方案的集群;另一個集群則采用了NVIDIA Quantum2 InfiniBand網絡結構。這兩種方案均能連接400 Gbps端點。通過這兩個不同類型的互連解決方案,我們能夠評估它們在大規模訓練中的適用性和可擴展性,從而獲得更多的見解,指導未來更大規模集群的設計與構建。經過精心的網絡、軟件和模型架構協同設計,我們成功地在RoCE和InfiniBand集群上運行大型、面向新一代AI(GenAI)的工作負載(包括在RoCE集群上對我們正在進行的Llama 3模型訓練),并且未出現任何網絡瓶頸。

2.計算部分

這兩個集群都基于我們內部設計并貢獻給開放計算項目(OCP)的開放式GPU硬件平臺“大提頓”(Grand Teton)構建。大提頓整合了多代AI系統的優點,將電源、控制、計算和結構接口集成在一個單一機箱中,以實現更好的整體性能、信號完整性和熱性能。該平臺提供了快速的可擴展性和簡化設計下的靈活性,使其能夠迅速部署到數據中心群集,并易于維護和擴展。結合我們其他的內部創新成果,如Open Rack供電和機架架構,大提頓讓我們能夠以針對Meta當前和未來應用的方式構建新的集群。

自2015年的Big Sur平臺開始,我們就一直在公開設計GPU硬件平臺。

3.存儲部分

在AI訓練中,存儲扮演著重要角色,但往往也是討論最少的部分之一。隨著GenAI訓練任務逐漸變得更加多模態,消耗大量圖像、視頻和文本數據,數據存儲的需求快速增長。然而,如何在保證高性能的同時兼顧節能,將所有這些數據存儲空間緊湊化的問題依然存在,這使得問題更具挑戰性。

我們的存儲部署通過由Meta專為Flash介質優化的“Tectonic”分布式存儲解決方案支持的用戶空間Linux文件系統(FUSE)API來滿足AI集群的數據和檢查點需求。這一解決方案使數千個GPU能夠同步保存和加載檢查點(這對任何存儲解決方案都是一個挑戰),同時也提供了用于數據加載所需的靈活、高吞吐量的EB級存儲容量。

此外,我們還與Hammerspace合作共同開發并實施了一種并行網絡文件系統(NFS)部署,以滿足此AI集群的開發者體驗要求。Hammerspace帶來諸多優勢,其中之一便是能夠讓工程師在數千個GPU環境中進行交互式調試,代碼更改會立即對所有節點可見。當Tectonic分布式存儲解決方案與Hammerspace相結合時,能夠在不犧牲規模的前提下實現快速迭代速度。

我們GenAI集群中的Tectonic和Hammerspace支持的存儲部署均基于YV3 Sierra Point服務器平臺,并升級到了市場上最新、最大容量的E1.S SSD。除了更高的SSD容量外,我們還根據每臺服務器的吞吐量容量、減少機架數量和相關的電源效率等因素定制了每機架的服務器數量。利用OCP服務器如同樂高積木般的構建模塊,我們的存儲層能夠靈活地按需擴展,適應這個集群以及未來更大規模AI集群的要求,同時在日?;A設施維護操作中保持容錯性。

4.性能部分

在構建大規模AI集群時,我們堅持的一個原則是同時最大限度地提高性能和易用性,而不會相互影響,這對于創造最佳級別的AI模型至關重要。

當我們不斷探索AI系統的極限時,檢驗我們設計擴展能力的最好方式就是實際構建系統、優化它并進行測試(雖然模擬器有所幫助,但其局限性明顯)。在這個設計過程中,我們將小集群和大集群的性能進行了對比,找出瓶頸所在。下圖顯示的是,在大量GPU之間以預期達到峰值性能的消息大小進行通信時,AllGather集體操作性能(以0-100標度標準化帶寬表示)。

最初,相比優化后的中小型集群,我們大型集群的開箱即用性能較差且不穩定。為了解決這個問題,我們對內部作業調度器進行了改進,使其具有網絡拓撲感知能力,從而降低延遲,減少流入網絡高層的流量。同時,我們還優化了網絡路由策略,并結合NVIDIA Collective Communications Library (NCCL) 的調整,以實現網絡資源的最佳利用。這些舉措促使我們的大型集群達到了與小型集群同樣出色且預期的性能水平。

圖片圖片

在圖表中,我們可以觀察到小型集群(總體通信帶寬和利用率)未經優化就能達到90%以上的水平,而未經優化的大規模集群性能表現非常差,利用率僅在10%至90%之間波動。然而,在我們對整個系統(包括軟件、網絡等方面)進行優化之后,大型集群的性能恢復到了理想的90%以上范圍。

除了針對內部基礎設施的軟件改動,我們還與編寫訓練框架和模型的團隊緊密合作,以適應我們不斷發展的基礎設施。例如,NVIDIA H100 GPU開啟了使用8位浮點數(FP8)等新型數據類型進行訓練的可能性。充分利用大型集群需要投入額外的并行化技術,而新的存儲解決方案則為跨數千個rank的高度優化檢查點運行提供了機會,使其能在數百毫秒內完成。

我們還認識到調試能力是大規模訓練的主要挑戰之一。在大規模環境下,識別導致整個訓練作業停滯的問題GPU變得極其困難。因此,我們正在開發諸如desync debug(異步調試)或分布式集體飛行記錄器之類的工具,以揭示分布式訓練的詳細信息,更快更容易地識別問題。

最后,我們正持續改進PyTorch這一支撐我們AI工作負載的基礎AI框架,使其準備好應對成千甚至數萬個GPU的訓練需求。我們已經識別出了進程組初始化過程中的多個瓶頸,并將啟動時間從有時需要數小時縮短到了幾分鐘。

三、對開放AI創新的承諾

Meta始終堅持在AI軟件和硬件方面的開放創新承諾。我們堅信開源硬件和軟件始終是幫助行業解決大規模問題的寶貴工具。

如今,作為OCP(開放計算項目)的創始成員,我們繼續支持開放硬件創新,將諸如Grand Teton和Open Rack等設計向OCP社區開放。同時,我們仍然是PyTorch的主要貢獻者,這是為行業內大部分應用場景提供動力的AI軟件框架。

我們同樣持續致力于AI研究領域的開放創新。我們已經推出了“開放創新AI研究社區”,這是一個與學術研究者合作的伙伴計劃,旨在深化我們對如何負責任地開發和分享AI技術的理解,尤其是關注大型語言模型(LLMs)。

對于Meta來說,采取開放的AI方法并不新鮮。我們還發起了AI聯盟,這是一個集結了AI行業領先組織的團體,專注于在開放社區中加速負責任的AI創新。我們的AI努力建立在開放科學和跨協作的理念之上。開放生態帶來了透明度、審查機制和信任,促進了AI開發的信任與安全,并引領出人人皆可受益、以安全和責任為核心構建的創新成果。

四、Meta未來AI基礎設施展望

這兩個AI訓練集群設計只是我們更大規模AI未來藍圖的一部分。到2024年底,我們的目標是繼續擴大基礎設施建設,其中包括350,000個NVIDIA H100 GPU,總計算能力相當于近600,000個H100 GPU。

展望未來,我們認識到昨天或今天奏效的方法可能無法滿足明天的需求。因此,我們不斷地評估和完善基礎設施的各個方面,從物理和虛擬層到軟件層乃至更多層面。我們的目標是創建既靈活又可靠的系統,以支持快速演進的新模型和研究。

參考鏈接:

https://engineering.fb.com/2024/03/12/data-center-engineering/building-metas-genai-infrastructure/

責任編輯:武曉燕 來源: 51CTO技術棧
相關推薦

2024-03-15 09:00:00

2024-04-19 09:26:43

人工智能Llama 3 模型Meta

2024-01-19 13:21:21

OpenAI人工智能AGI

2024-03-13 11:49:04

人工智能Meta數據中心

2024-01-19 12:34:39

2024-07-29 14:27:38

2010-03-03 16:16:33

Linux基礎訓練

2024-03-14 14:49:34

Meta人工智能

2023-11-21 09:14:33

微軟Azure AI

2024-07-23 13:10:20

2023-09-01 13:26:03

2025-05-06 15:39:53

DeepSeek-R英偉達開源

2023-08-06 13:01:34

AI開發

2024-05-27 09:16:37

2013-08-22 09:55:19

數據中心云計算基礎設施

2024-03-26 16:48:00

2024-07-29 14:06:57

2024-09-05 13:30:00

2025-01-20 07:30:00

2023-08-29 13:51:00

AI數據
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲一区二区三区在线 | av性色| 亚洲午夜精品一区二区三区他趣 | 亚洲色图综合网 | 欧美一区二区三区在线看 | 亚洲综合国产精品 | 国产精品视频网站 | 成人精品一区 | 热99精品视频 | 有码在线 | 在线观看免费av片 | 色综合九九 | 欧美一区二区三区的 | 亚洲国产精品久久久久久 | 精品一区在线 | 中文字幕成人 | 欧美一级精品片在线看 | 精品视频一区二区 | 在线成人www免费观看视频 | 日本在线视频一区二区 | 在线观看免费福利 | 午夜看电影在线观看 | 日韩欧美三级电影 | 亚洲看片网站 | 久久久婷 | 精品99爱视频在线观看 | 亚洲啊v在线 | 午夜亚洲| 国产精品一区二区在线播放 | www.青娱乐 | 亚洲精品成人免费 | 欧美a在线 | 亚洲精品久久久久久国产精华液 | 欧美一级二级三级 | 国产激情91久久精品导航 | 日韩二区 | 日韩视频精品在线 | 国产福利在线视频 | 亚洲电影第1页 | 波多野结衣一区二区 | 亚洲精品久久久久久宅男 |