成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Llama3.1訓(xùn)練平均3小時故障一次,H100萬卡集群好脆弱,氣溫波動都會影響吞吐量

人工智能
不過,SemiAnalysis一個月前的一篇文章指出,構(gòu)建大規(guī)模AI算力集群非常復(fù)雜,遠遠不只是有沒有錢買卡的事。在電力、網(wǎng)絡(luò)設(shè)計、并行、可靠性等很多方面都面臨局限。

每3個小時1次、平均1天8次,Llama 3.1 405B預(yù)訓(xùn)練老出故障,H100是罪魁禍首?

最近有人從Meta發(fā)布的92頁超長Llama 3.1論文中發(fā)現(xiàn)了華點:

Llama 3.1在為期54天的預(yù)訓(xùn)練期間,經(jīng)歷了共466次任務(wù)中斷。其中只有47次是計劃內(nèi)的,419次純屬意外,意外中78%已確認或懷疑是硬件問題導(dǎo)致。

而且GPU問題最嚴重,占了58.7%

Llama 3.1 405模型是在一個含16384塊Nvidia H100 80GB GPU集群上進行訓(xùn)練的。雖說針對大規(guī)模系統(tǒng)有句老話:唯一確定的就是會出故障。

但這一問題還是引起不少網(wǎng)友關(guān)注。

放慢速度,check一下產(chǎn)品吧。

圖片圖片

圖片圖片

老出故障,咋整?

具體來看,在419次意外中斷中,148 次(30.1%)是由各種GPU故障(包括NVLink故障)引起的,72次 (17.2%)可以具體到是由HBM3內(nèi)存故障引起。

鑒于H100的700W高功耗和熱應(yīng)力,出現(xiàn)這樣的結(jié)果也并不意外。

有意思的是,54天內(nèi)只有兩次是CPU出現(xiàn)了故障。

除了GPU外的另一半故障由眾多因素導(dǎo)致,比如軟件Bug、網(wǎng)絡(luò)電纜等等。

圖片圖片

不過最終,Llama 3.1團隊保持了超90%的有效訓(xùn)練時間。只有三起故障需要人工大幅介入,其余的都自動化處理了。

那么他們是如何應(yīng)對的?

為了增加有效訓(xùn)練時間,Llama 3.1團隊表示減少了任務(wù)啟動和checkpointing時間,并開發(fā)了一些工具來快速診斷和解決問題。

其中廣泛使用了PyTorch的內(nèi)置NCCL flight recorder(Ansel等人2024年開發(fā)),是一個可以把集體元數(shù)據(jù)和堆棧跟蹤記錄到一個循環(huán)緩沖區(qū)里的功能,這樣就能快速診斷大規(guī)模卡頓和性能問題,特別是跟NCCLX有關(guān)的問題。

圖片圖片

用這個工具,團隊能有效記錄每次通信事件和每個集體操作的持續(xù)時間,在NCCLX Watchdog或Heartbeat超時時還能自動導(dǎo)出跟蹤數(shù)據(jù)。

還可以根據(jù)需要,通過在線配置更改(Tang等人2015年提出的方法)來選擇性地啟用一些計算量更大的跟蹤操作和元數(shù)據(jù)收集,而不需要重新發(fā)布代碼或重啟任務(wù)。

圖片圖片

團隊表示,在大規(guī)模訓(xùn)練中調(diào)試問題很復(fù)雜,因為網(wǎng)絡(luò)同時使用了NVLink和RoCE。通過NVLink傳輸數(shù)據(jù)通常是通過CUDA內(nèi)核發(fā)出的加載/存儲操作來完成的,如果遠程GPU或NVLink連接出了問題,往往表現(xiàn)為CUDA內(nèi)核里的加載/存儲操作卡住了,卻不會返回明確的錯誤代碼。

而NCCLX通過與PyTorch緊密配合,提高了故障檢測和定位的速度和準確性,讓PyTorch能夠訪問NCCLX的內(nèi)部狀態(tài)并跟蹤相關(guān)信息。

雖然無法完全避免NVLink故障導(dǎo)致的卡頓,但系統(tǒng)會監(jiān)控通信庫狀態(tài),在發(fā)現(xiàn)卡頓時自動超時。

此外,NCCLX還會跟蹤每次NCCLX通信的內(nèi)核和網(wǎng)絡(luò)活動,并在失敗時提供NCCLX集體操作內(nèi)部狀態(tài)“快照”,包括所有等級之間已完成和待處理的數(shù)據(jù)傳輸。團隊通過分析這些數(shù)據(jù)來調(diào)試NCCLX的擴展問題。

有時,硬件問題可能導(dǎo)致某些部分雖然看起來還在運行,但速度變慢,這種情況很難被發(fā)現(xiàn)。即使只有一個部分變慢,也可能拖慢數(shù)千個其它GPU的速度。

為此團隊開發(fā)了一些工具,可以優(yōu)先處理某些可能有問題的進程組的通信。通常只需要調(diào)查幾個最可疑的對象,就能有效找出那些變慢的部分。

團隊還觀察到了一個有趣的現(xiàn)象——環(huán)境因素對大規(guī)模訓(xùn)練性能的影響。在訓(xùn)練Llama 3.1 405B時,吞吐量會根據(jù)一天中時間的不同而有1-2%的變化。這是因為中午溫度較高,影響了GPU動態(tài)電壓和頻率調(diào)節(jié)。

在訓(xùn)練過程中,數(shù)萬個GPU可能會同時增加或減少功耗,比如在所有GPU等待checkpointing或集體通信完成時,或者在整個訓(xùn)練任務(wù)啟動/關(guān)閉時。這種情況發(fā)生,可能導(dǎo)致數(shù)據(jù)中心的瞬時功耗波動達到數(shù)十兆瓦,對電網(wǎng)來說是個不小的考驗。

團隊最后還表示:

隨著未來更大的Llama模型擴展訓(xùn)練規(guī)模,這一挑戰(zhàn)將持續(xù)存在。

圖片圖片

AI集群問題正待破壁

Meta2022年首次分享了其AI研究超級集群(RSC)的詳細信息,當時擁有16000個NVIDIA A100 GPU,幫助其構(gòu)建了第一代AI模型,在Llama初代和Llama 2開發(fā)中都發(fā)揮了重要作用。

圖片圖片

△來自Meta

今年三月份,Meta又公開了24576個NVIDIA H100 GPU的AI集群,支持Llama 3及之后模型。

更是定下了到今年年底增加350000個NVIDIA H100 GPU的目標,作為整體算力的一部分(整體算力近600000個H100 GPU)

圖片圖片

這么大的規(guī)模,emmm可不是個持續(xù)性的挑戰(zhàn)嘛。當然,大規(guī)模AI集群會給模型訓(xùn)練造成故障是一個有些“遠古”的問題,很早之前就有相關(guān)研究。

H100本身什么含金量無需多言。

在去年最新MLPerf訓(xùn)練基準測試中,英偉達H100集群,橫掃八項測試,全部創(chuàng)下新紀錄,并且在大語言模型任務(wù)中表現(xiàn)尤為突出。

圖片圖片

11分鐘內(nèi)訓(xùn)練一遍GPT-3,8秒訓(xùn)完BERT。在大語言模型任務(wù)中,H100集群的加速性能逼近線性增長。即隨著集群處理器數(shù)量增加,加速效果也幾乎同比增加。

意味著在集群內(nèi)GPU之間的通信效率非常高。

圖片圖片

除此之外,H100還完成了推薦算法、CV、醫(yī)學圖像識別以及語音識別等任務(wù),是唯一一個參加8項測試的集群。

不過,SemiAnalysis一個月前的一篇文章指出,構(gòu)建大規(guī)模AI算力集群非常復(fù)雜,遠遠不只是有沒有錢買卡的事。

在電力、網(wǎng)絡(luò)設(shè)計、并行、可靠性等很多方面都面臨局限。

圖片圖片

參考鏈接:
[1]https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

[2]https://engineering.fb.com/2024/03/12/data-center-engineering/building-metas-genai-infrastructure/
[3]https://www.semianalysis.com/p/100000-h100-clusters-power-network

責任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2024-07-29 14:06:57

2024-03-15 09:00:00

2024-01-19 13:21:21

OpenAI人工智能AGI

2024-03-13 13:36:57

Llama-3GPUAI

2024-01-19 12:34:39

2025-05-06 15:39:53

DeepSeek-R英偉達開源

2019-08-20 00:20:47

TCPHOL吞吐量

2024-03-14 14:49:34

Meta人工智能

2024-02-19 14:06:00

AI數(shù)據(jù)

2024-06-24 08:30:00

2025-05-09 08:55:00

2024-07-23 13:10:20

2023-12-19 13:32:00

模型數(shù)據(jù)

2013-04-19 09:45:20

AMPLabHadoopHDFS

2024-05-23 16:41:40

2023-08-06 13:01:34

AI開發(fā)

2024-05-29 14:11:00

2023-11-07 15:11:46

Kafka技巧

2023-02-09 08:57:11

Callable異步java

2023-08-03 14:18:29

Rust阻塞函數(shù)
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 91精品国产91久久综合桃花 | 亚洲国产高清高潮精品美女 | 精品日韩 | 免费日韩网站 | 国产丝袜人妖cd露出 | 日韩欧美一区二区三区 | 午夜久久久 | 国产传媒在线观看 | 日韩成人影院在线观看 | 一区二区三 | av一区二区三区在线观看 | 久久久久久久久久久久91 | 第四色狠狠 | 在线日韩精品视频 | 亚洲www啪成人一区二区麻豆 | 999免费网站 | 色综合久久久久 | 中文字幕中文字幕 | 国产偷录视频叫床高潮对白 | 亚洲男人天堂 | 久久久久久国产精品免费免费 | 日韩欧美手机在线 | 久久久久久一区 | 国产999精品久久久 日本视频一区二区三区 | 午夜不卡一区二区 | 国产精品视频在线播放 | 欧美精品久久久久久久久久 | 在线观看中文字幕 | 日本精品一区二区三区视频 | 国产视频线观看永久免费 | 99精品国自产在线 | 久久综合一区 | 亚洲天堂男人的天堂 | 国产在线一区二区三区 | 国产一区精品在线 | 毛片一区二区 | 中文字幕成人 | 欧美偷偷 | 久久久精品黄色 | 国产精品大片在线观看 | 国产一区久久精品 |