DeepSeek開源周最后一天:讓數據處理「從自行車升級到高鐵」
DeepSeek 的開源周終于迎來了最后一天。
今天他們開源了一個名為 3FS(Fire-Flyer File System)的系統。這是一種并行文件系統,它利用現代固態硬盤(SSD)和遠程直接內存訪問(RDMA)網絡的全部帶寬,能夠加速和推動 DeepSeek 平臺上所有數據訪問操作。
它有以下優勢:
- 在 180 節點集群中實現了 6.6 TiB/s 的聚合讀取吞吐量;
- 在 25 節點集群的 GraySort 基準測試中達到 3.66 TiB/min 的吞吐量;
- 每個客戶端節點在 KVCache 查找時可達到 40+ GiB/s 的峰值吞吐量;
- 采用分離式架構,具有強一致性語義。
在應用場景方面,它支持訓練數據預處理、數據集加載、檢查點保存 / 重新加載、用于推理的嵌入向量搜索和 KVCache 查找。DeepSeek V3、R1 模型均采用了這個系統。
- 開源鏈接:https://github.com/deepseek-ai/3FS
- Smallpool(3FS 上的數據處理框架):https://github.com/deepseek-ai/smallpond
如果技術語言不好理解,可以參考這位研究者給出的通俗解釋:
同時,這位研究者也是一位早期使用者,他評價說,「DeepSeek 的 3FS 系統快得驚人,它處理數據的速度快到可以在我還沒來得及拖延的時候就已經訓練好了一個能幫我報稅的 AI。它擁有 6.6 TiB/s 的讀取速度,這使它成為文件系統界的『博爾特』(世界最快短跑運動員)。你眨眼的功夫,數據就已經處理完畢了。而將這個超級快速的系統開源,就像是給整個 AI 社區免費贈送了一艘宇宙飛船,讓其他所有競爭者都不得不加緊腳步追趕?!?/p>
3FS 有什么用?
Fire-Flyer File System 是一種高性能分布式文件系統,專為解決 AI 訓練和推理工作負載的挑戰而設計。它利用現代 SSD 和 RDMA 網絡提供共享存儲層,簡化了分布式應用程序的開發。
3FS 的主要特點和優勢包括:
(1) 性能和可用性
- 分離式架構。結合了數千個 SSD 的吞吐量和數百個存儲節點的網絡帶寬,使應用程序能夠以不受位置限制的方式訪問存儲資源。
- 強一致性。實現了帶有分配查詢的鏈式復制(CRAQ)以保證強一致性,使應用程序代碼簡單且易于理解。
- 文件接口。開發了由事務性鍵值存儲(如 FoundationDB)支持的無狀態元數據服務。文件接口廣為人知且隨處可用。無需學習新的存儲 API。
(2) 多樣化工作負載
- 數據準備。將數據分析管道的輸出組織成層次化的目錄結構,并高效管理大量中間輸出。
- 數據加載器。通過支持跨計算節點對訓練樣本的隨機訪問,消除了預取或打亂數據集的需求。
- 檢查點保存。支持大規模訓練的高吞吐量并行檢查點保存。
- 用于推理的 KVCache。為基于 DRAM 的緩存提供了一種成本效益高的替代方案,提供高吞吐量和顯著更大的容量。
3FS 性能如何
(1) 峰值吞吐量
下圖展示了在大型 3FS 集群上進行讀取壓力測試的吞吐量。該集群由 180 個存儲節點組成,每個存儲節點配備 2×200Gbps InfiniBand 網卡和 16 個 14TiB NVMe SSD。大約 500+ 個客戶端節點用于讀取壓力測試 ,每個客戶端節點配置 1x200Gbps InfiniBand 網卡。在有訓練作業的背景流量情況下,最終聚合讀取吞吐量達到約 6.6 TiB/s。
(2) 灰度排序
DeepSeek 利用 GraySort 基準對 smallpond 進行了評估,該基準可衡量大規模數據集的排序性能。具體實現采用兩階段方法:(1) 使用鍵的前綴位通過 shuffle 對數據進行分區,以及 (2) 分區內排序。兩個階段都從 3FS 讀取數據 / 向 3FS 寫入數據。
測試集群由 25 個存儲節點(2 個 NUMA 域 / 節點、1 個存儲服務 / NUMA、2×400Gbps NIC / 節點)和 50 個計算節點(2 個 NUMA 域、192 個物理核心、2.2 TiB RAM 和 1×200 Gbps NIC / 節點)組成。對 8192 個分區中的 110.5 TiB 數據進行排序耗時 30 分 14 秒,平均吞吐量為 3.66 TiB / 分鐘。
(3) KVCache
KVCache 是一種用于優化 LLM 推理過程的技術。它通過在解碼器層中緩存先前 token 的 key 和 value 向量來避免冗余計算。
上圖展示了所有 KVCache 客戶端的讀取吞吐量,突出顯示了峰值和平均值,峰值吞吐量高達 40 GiB/s。下圖展示了同一時間段內垃圾回收 (GC) 中刪除操作的 IOPS。
開源周「收官之作」,網友撒花
通過連續一周的高強度開源,DeepSeek 已經收獲了一大波開發者的追隨。
有開發者表示,3FS 和 Smallpond 是在 AI 數據處理方面樹立了新標桿。
同時,OpenAI 剛剛發布的 GPT-4.5 也被拉出來對比價格:
最后,還有人許愿:DeepSeek V4、R2 和視頻模型什么時候有?