成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型訓練集群的存儲設計 原創

發布于 2024-10-30 15:22
瀏覽
0收藏

存儲系統在分布式LLM訓練中扮演著關鍵角色,需要滿足幾個關鍵要求。

  1. 應與 GPU 的計算能力相匹配,以最大限度地利用其性能,避免因存儲瓶頸造成的資源浪費。
  2. 應支持大規模結構化和非結構化訓練數據集的存儲,并在分布式處理環境中具備可擴展性。
  3. 模型checkpoint的存儲和檢索在 LLM 訓練中也帶來了挑戰,需要系統滿足模型大小和訓練時長所決定的讀寫帶寬要求。
  4. 滿足傳統企業級要求,例如數據保護、高可用性和安全性。

本文參考了論文 Llama3.1 405B Paper, Efficient Training of Large Language Models on Distributed Infrastructures: A Survey 以及公號之前的零一萬物《萬卡集群的AI Infra實踐分享》。兩篇paper已上傳到知識星球。

大模型訓練集群的存儲設計-AI.x社區

以Meta Llama 3 405B模型訓練的基礎設施為例。該模型是在一個配備16,000個GPU的集群上進行的訓練。支撐這一訓練的存儲系統由7500臺服務器組成,提供了高達240PB的SSD存儲容量。

在設計上,該存儲系統旨在支持持續讀寫帶寬達到2TB/s,并且在爆發式讀寫操作時,讀寫帶寬可以提升至7TB/s。這樣的設計充分考慮了Llama 3 405B模型訓練過程中的數據讀寫需求。

此外,考慮到訓練數據龐大且數量眾多,即使是文本格式,原始數據通常也是TB級別的,而語音和多模態數據則通常達到百TB的規模。因此,240PB的存儲規劃是合理的,可以滿足模型訓練過程中的數據存儲需求。

文件系統的高速度可以支持每一步都可以記錄一個checkpoint,當訓練過程中出現問題時,可以迅速從上一個checkpoint恢復訓練。這種設計大大縮短了容災恢復的時間,提高了訓練的效率。

Checkpoint

在LLM的訓練過程中,checkpoint的數量和大小都是巨大的。模型參數量越大,所需寫入的數據量也越大,這要求存儲系統提供更大的寫入帶寬。例如,具有70B參數的LLM的checkpoint大小大約980GB。

在Llama3 的paper中,Meta表示采用分布式文件系統Tectonic使數千個GPU能夠同時保存和加載模型checkpoint,從而為廣泛的訓練操作提供了高效且可擴展的存儲解決方案。在字節的MegaScale系統,HDFS被用于集中式模型檢查點維護,確保在規模上的一致性和可靠性。為了緩解checkpoint恢復期間的帶寬瓶頸。

分布式對象存儲,如Ceph對象存儲,則提供了更易于擴展的特性。這種優勢源于其沒有層次化的目錄樹或命名空間,從而簡化了一致性維護。正因如此,對象存儲已在模型checkpoint存儲中得到廣泛應用。零一萬物的數據中心就采用了Ceph。

大模型訓練集群的存儲設計-AI.x社區

訓練數據

LLM訓練的原始數據集是巨大的。Llama 3在超過15萬億token上進行了訓練,而Llama 2的數據集只有1.8萬億token。每個token大約2字節,相當于大約30TB的數據。準備訓練數據集涉及廣泛的預處理步驟,包括數據抓取和清理,需要大量的實驗。通常,這些步驟處理的數據超過最終訓練數據集大小的100倍 。例如,WanJuan-CC數據集有選擇性地提取了大約680億個文檔,生成了大約1萬億個高質量標記,相當于在丟棄99%的原始數據后,數據大小為2TB。因此,LLM訓練的總數據量預計將超過數十PB。

并行文件系統,如Lustre、GPFS和BeeGFS,經常部署在領先的高性能計算系統上,以確保高效的I/O、持久存儲和可擴展性能。這些系統也被廣泛用于訓練集群的數據加載,為高效處理大規模訓練數據提供了必要的基礎設施。此外,文件系統還必須使工程師能夠對使用數千個GPU的工作進行交互式調試,因為代碼更改需要立即對所有節點可用 。

在大多數LLM的訓練過程中,每個token通常只遇到一次。然而,采用數據緩存策略仍然至關重要,以緩解數據加載期間的I/O瓶頸。這種策略涉及從較慢的后端存儲預取訓練數據到更快的緩存存儲。Alluxio和JuiceFS通過從HDFS或對象存儲等底層存儲系統高效緩存訓練數據,增強了LLM訓練。Quiver支持跨多個作業和用戶透明地重用緩存數據。Fluid利用Alluxio進行數據緩存,并引入了一種機制,可以根據I/O條件實現緩存的自適應擴展。


本文轉載自公眾號AI時代窗口 作者:郁愈

原文鏈接:??https://mp.weixin.qq.com/s/FrDSfj7F-PKOV4xVj0ZM9Q???

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 久久久久久99 | 欧美一级在线观看 | 免费一级黄色电影 | 操操日 | 日本中文字幕在线视频 | 久久久999精品 | 亚洲国产视频一区二区 | 天天操人人干 | 亚洲一区二区在线播放 | 久久不射电影网 | 操人视频在线观看 | 在线播放中文字幕 | 亚洲国产成人在线视频 | 在线成人一区 | 人人干人人爽 | 欧美一区二区视频 | 国产成人精品一区二区三区在线 | 黄频免费 | 91在线视频国产 | 亚洲欧洲在线视频 | 国产精品欧美精品 | 亚洲一二三区免费 | 99久久精品一区二区毛片吞精 | 97人人澡人人爽91综合色 | 成年人的视频免费观看 | 亚洲欧美日本在线 | 综合色播| 99视频在线免费观看 | 欧美成人精品激情在线观看 | 国产精品视频网 | 久久免费精品视频 | 精品一二区 | 日韩午夜在线播放 | 亚洲精选久久 | 欧美性大战久久久久久久蜜臀 | 一区二区精品视频 | 国产乱人伦精品一区二区 | www.成人免费视频 | 久久精品国产一区二区三区不卡 | 国产欧美一区二区三区久久 | 国产 日韩 欧美 制服 另类 |