成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

1.6萬塊H100訓Llama 3.1,每3小時故障1次!罪魁禍首竟是GPU和HBM3顯存

人工智能 新聞
在Meta的Llama 3.1訓練過程中,其運行的1.6萬個GPU訓練集群每3小時就會出現一次故障,意外故障中的半數都是由英偉達H100 GPU和HBM3內存故障造成的。

隨著大模型的迭代,其GPU用量也在不斷增長。

Meta的Llama 1使用了2028塊GPU,而到了Llama 3.1 405B,這個數字變成了16384。

圖片

規模如此龐大的超算系統迎來了可靠性和運行方面的巨大挑戰——

據Meta最近公布的研究顯示,Llama 3.1訓練持續了54天,在此期間集群遇到了419次意外組件故障,平均每3小時發生一次!

在一半的故障案例中,罪魁禍首正是英偉達的H100 GPU及其板載的HBM3內存。

圖片

在超算領域,有一句古老的諺語,「大規模系統唯一可以確定的事就是發生故障」。

一個由成千上萬個處理器、數十萬個其他芯片和數百英里的電纜組成的超算集群,是極其復雜的。這樣復雜的系統不可避免地會發生故障,甚至以幾個小時為間隔單位都很正常。

開發人員要做的是確保系統在這些局部故障的情況下仍然能夠正常運行。

Meta已經為抵御故障對系統的影響而耗費了不少精力,馬斯克的包含10萬塊H100的超算集群比Llama 3.1的訓練集群足足多了6倍,很難想象,其故障發生的頻率將會有多高。

圖片

419次意外中斷

Meta的Llama 3.1 405B的訓練集群共包含16384個Nvidia H100 80GB GPU的集群上進行訓練的。

1.6萬塊GPU訓練的復雜性和潛在故障情況超出了Llama團隊的既有經驗,這是他們迄今為止運行過的最大的集群。

此外,訓練的同步性也降低了容錯性——單個GPU故障可能會導致整個訓練任務中斷,整個作業必須要重新啟動。

在54天的預訓練期間,共有466次作業中斷,其中47次是計劃內的,419次是意外的。

計劃內的中斷是由于自動維護,如固件和Linux內核升級、數據集更新等操作員發起的操作,這導致每天至少有一次訓練中斷。

而意外的中斷主要是由硬件問題引起的,約78%的意外中斷歸因于已確認的硬件問題。如GPU或主機組件故障、靜默數據損壞、計劃外的單個主機維護事件等。

其中,GPU問題是最大的一類,占所有意外問題的58.7%(下圖中紅色部分)。

圖片

在419次意外中斷中,有148次(30.1%)是由于各種GPU故障(包括NVLink故障)引起的,而72次(17.2%)是由HBM3內存故障引起的。

這并不意外——英偉達H100 GPU有著高達700W的功耗,并因此需要承受大量熱應力。

相比之下,在54天內只有兩個CPU發生故障(上圖中藍色部分)。

雖然GPU是最重要但也最脆弱的組件,占到意外問題的58.7%,但剩余41.3%的意外中斷是由多種因素引起的,包括軟件錯誤、網絡電纜和網絡適配器。

盡管故障數量眾多,Llama團隊還是保持了超過90%的有效訓練時間,在訓練期間僅有三次需要大量人工干預,其余問題均由自動化處理。

解決辦法

為了提高效率,Meta團隊減少了作業啟動和檢查點時間,并開發了專有的診斷工具。

PyTorch的NCCL飛行記錄器被廣泛使用,該功能可將集體元數據和堆棧跟蹤記錄到環形緩沖區中,從而使研究人員能夠快速診斷大規模掛起和性能問題,尤其是NCCLX方面的問題。

圖片

NCCLX在故障檢測和定位中發揮了關鍵作用,特別是在訓練網絡中,NVLink和RoCE的混合使用使大規模訓練中的調試問題變得復雜。

對于NVLink和RoCE帶來的復雜性問題,NCCLX通過與PyTorch的緊密協同設計提高了故障檢測和定位的速度和準確性,允許PyTorch訪問NCCLX的內部狀態并跟蹤相關信息。

雖然NVLink故障導致的停滯無法完全避免,但這個系統會監控通信庫的狀態,并在檢測到此類停滯時自動超時。

除此之外,有時一些仍在運行但速度緩慢的滯留器很難被檢測到。

Meta團隊開發的工具,能夠用于識別「拖后腿」的GPU。

這個工具的原理是對來自選定進程組的可能有問題的通信進行優先排序,只需調查幾個最大的嫌疑人,通常就能有效地識別出滯后的GPU。

從而有效地檢測和及時解決滯后問題,確保減慢速度的情況最小化,保持整體訓練效率。

運行挑戰

Meta透露,超算集群還有來自環境因素和功耗劇烈波動帶來的運行挑戰。

環境因素

Meta團隊發現一個有趣的現象是環境因素對大規模培訓性能的影響,研究人員注意到,吞吐量會有1-2%的晝夜變化。

這種波動是由于中午較高的溫度影響了GPU的動態電壓和頻率縮放,從而影響訓練性能。

圖片

功耗波動

Llama 3.1 405B大語言模型訓練團隊面臨的另一個挑戰是數萬GPU同時功耗變化,這給他們的數據中心電網帶來了壓力。

這些波動有時高達數十兆瓦,達到了電網的極限,這意味著Meta必須確保其數據中心有足夠的電力。

在訓練過程中,數以萬計的GPU可能會同時增加或減少功耗,例如,由于所有GPU都在等待檢查點或集體通信的完成,或者整個訓練任務的啟動或關閉。

當這種情況發生時,整個數據中心的功耗會瞬間波動數十兆瓦,從而挑戰電網的極限。

Meta認為,在為未來更大型的Llama模型擴展訓練時,這將會是一個持續的挑戰。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-03-15 09:00:00

2024-01-19 13:21:21

OpenAI人工智能AGI

2019-05-27 10:22:26

Oracle日志數據庫

2018-09-10 09:43:26

2024-07-29 14:27:38

2015-11-23 10:29:48

app隱藏通信安卓耗電

2019-06-04 14:19:53

AWS谷歌巖機

2024-04-07 00:20:00

2017-06-19 10:57:13

2009-07-27 13:56:10

2009-12-03 10:25:32

微軟補丁黑屏故障

2024-01-19 12:34:39

2011-04-21 16:34:56

打印亂碼接口

2021-12-12 21:51:54

人工智能銀行內卷

2011-08-12 10:04:52

數據中心宕機EPO

2015-10-14 11:32:55

機房空調制冷

2023-03-02 08:35:38

內存算法設計

2023-03-07 09:40:33

內存死鎖操作系統

2009-06-03 08:48:26

2015-10-14 11:04:53

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 超碰97免费观看 | 伊人久久综合 | 亚洲欧美在线视频 | 精品中文字幕一区二区 | 久久av网 | 黄色男女网站 | 97久久精品午夜一区二区 | 午夜手机在线视频 | 久久精品国产99国产 | 久久国产欧美日韩精品 | 国产十日韩十欧美 | 日韩激情免费 | 欧美精品成人一区二区三区四区 | 伊人一二三 | 一区二区三区影院 | 免费在线观看成人av | 91色视频在线观看 | 久久久久久久国产精品视频 | 久久99视频这里只有精品 | 黄色av网站在线观看 | 精品亚洲永久免费精品 | 日韩欧美在线观看一区 | 亚洲性爰 | 日韩欧美国产精品综合嫩v 一区中文字幕 | 一区二区三区在线播放 | 欧美在线一区二区三区 | av二区三区 | 久久久久久高潮国产精品视 | 免费观看的av | 精品国产乱码久久久久久中文 | 日韩午夜精品 | 国产91九色| 国产精品久久午夜夜伦鲁鲁 | 国产综合久久 | 国产一区二区三区四区五区加勒比 | 国产精品久久久久久久模特 | 成人免费观看男女羞羞视频 | 婷婷在线网站 | 亚洲精品一区二区在线观看 | 一区二区三区四区在线视频 | 欧美日韩一区在线 |