DeepSeek第五彈炸裂收官!開源全新并行文件系統,榨干SSD全部帶寬
DeepSeek開源周,今日正式收官!
內容依舊驚喜且重磅,直接公開了V3和R1訓練推理過程中用到的文件系統。
具體來說,包括以下兩項內容:
- Fire-Flyer文件系統(簡稱3FS,第三個F代表File),一種利用現代SSD和RDMA網絡的全部帶寬的并行文件系統;
- Smallpond,基于3FS和DuckDB構建的輕量級數據處理框架。
圖片
劃重點就是,3FS可以把固態硬盤的帶寬性能利用到極致,表現出了驚人的速度:
- 180節點集群中的聚合讀取吞吐量為6.6TB/s;
- 25節點集群中GraySort基準測試的吞吐量為3.66TB/分鐘;
- 每個客戶端節點的KVCache查找峰值吞吐量超過40GB/s。
V3和R1中訓練數據預處理、數據集加載、嵌入向量搜索和KV Cache查找等工作,3FS都立下了汗馬功勞。
網友們表示,3FS和Smallpond為AI數據處理設定了新基準,將改變數據處理的游戲規則。
對于AI來說,這就像從自行車升級到了高鐵。
圖片
將SSD和RDMA性能榨干
根據DeepSeek團隊介紹,3FS是一種高性能的分布式文件系統,面對的就是AI訓練和推理工作負載的挑戰。
它利用現代SSD和RDMA網絡來提供共享存儲層,從而簡化分布式應用程序的開發。
SSD就是固態硬盤,而RDMA(遠程直接訪問,remote direct memory access)是一種直接存儲器訪問技術。
它可以在沒有雙方操作系統介入的情況下,將數據直接從一臺計算機的內存傳輸到另一臺計算機,也不需要中央處理器、CPU緩存或上下文交換參與。
特點就是高通量、低延遲,尤其適合在大規模并行計算機集群中使用。
具體到3FS,具有以下特點:
- 分布式架構:結合了數千個SSD的吞吐量和數百個存儲節點的網絡帶寬,使應用程序能夠以不受位置影響的方式訪問存儲資源。
- 強一致性實現帶:分配查詢的鏈式復制 (CRAQ) 以實現強一致性,使應用程序代碼簡單易懂。
- 文件接口:文件接口眾所周知且隨處可用,無需學習新的存儲 API。
并且,3FS能夠適用于大模型訓練推理和過程中不同類型的應用負載:
- 數據準備:將數據分析pipeline的輸出重組成分層目錄結構,并有效管理大量中間輸出。
- 數據加載器:通過跨計算節點隨機訪問訓練樣本,消除了預取或混洗數據集的需要。
- Checkpoints:支持大規模訓練的高吞吐量并行Checkpoints。
- 用于推理的KV緩存:為基于DRAM的緩存提供了一種經濟高效的替代方案,可提供高吞吐量和更大的容量。
在大型3FS集群上的讀取測試中,實現了驚人的高吞吐量。
該集群由180個存儲節點組成,每個存儲節點配備2×200Gbps InfiniBand網卡和16個14TB NVMe SSD。
大約500+個客戶端節點用于讀壓測,每個客戶端節點配置1x200Gbps InfiniBand網卡。
在訓練作業的背景流量下,最終聚合讀吞吐達到約6.6TB/s。
圖片
DeepSeek還用GraySort基準測試評估了基于3FS構建的smallpond框架,該基準測試可測量大規模數據集的排序性能。
測試分為兩個階段,先用鍵的前綴位通過shuffle對數據進行分區,然后進行分區內排序。兩個階段既需要從3FS讀取,也需要向3FS寫入數據。
測試集群包含25個存儲節點(2個NUMA域/節點、1個存儲服務/NUMA、2×400Gbps NIC/節點)和50個計算節點(2個NUMA域、192個物理核心、2.2 TB RAM 和1×200 Gbps NIC/節點)。
最終對8192個分區中110.5TB數據進行排序,耗時30分14秒,平均吞吐量為3.66TB/分鐘。
圖片
另外,KV緩存客戶端的讀取吞吐量,峰值也達到了40GB/s。
圖片
One More Thing
回顧DeepSeek這五天開源的內容,幾乎都和AI Infra相關:
- 第一天,FlashMLA架構,DeepSeek獨創MLA架構的高性能版本,直接突破H800計算上限;
- 第二天,DeepEP, 第一個用于MoE模型訓練和推理的開源EP通信庫,提供高吞吐量和低延遲的all-to-all GPU內核;
- 第三天,DeepGEMM,一個通用矩陣乘法庫,僅300行代碼,是V3/R1訓練推理關鍵秘籍;
- 第四天,連開三源,創新的雙向流水線并行算法DualPipe、用于MoE的負載均衡算法EPLB,以及訓練和推理框架的性能分析數據;
- 第五天,3FS和Smallpond,高效的分布式文件系統和以之為基礎的數據處理框架。
并且主打的就是極度壓縮成本,降低消耗的同時將各種硬件的性能全部發揮到極致。
而另外一邊,有網友已經在期待V4和R2的上線了。
圖片
至此,DeepSeek開源周的連載也要告一段落了,但DeepSeek后續動作依然值得持續關注。