出品 | 51CTO技術棧(微信號:blog51cto)
DeepSeek “開源周”第五天,依舊保持了一如既往地“務實”風,滿滿的誠意。
先來回憶下前四天,源神的慷慨發布——
第一天,2月24日,最為外界稱道的MLA技術率先開源,這項解碼加速器FlashMLA技術能夠讓英偉達Hopper架構GPU跑得更快,效果更好!
緊接著,25日,直接亮出首個面向MoE模型的開源專家并行通信庫DeepEP,實現了MoE訓練推理的全棧優化;
第三天,則進一步祭出一項跨時代的發布:FP8通用矩陣乘法加速庫,從底層讓模型訓練、微調變得更加流暢絲滑;
第四天,也就是昨天的并行優化“三劍客”:DeepSeek-V3和R1 模型背后的并行計算優化技術——DualPipe(雙向流水線并行算法,讓計算和通信高效協同)、EPLB ( 專家并行負載均衡器,讓每個 GPU 都“雨露均沾”)、profile-data (性能分析數據,可以理解成V3/R1 的并行優化的分析經驗)
可以說前四天的發布聚焦在算力通信、模型架構優化,也就是算力和算法的層面,而接下來第五天的開源則補上了AI三駕馬車的最后一塊,也是用戶體驗感知更為明顯的一塊優化動作:高性能分布式文件系統(數據存儲層面的改進)。
五天整體看下來,可以說是把R1技術報告中沒來得及公開的“黑科技”一股腦的全部開源了!
第五天究竟開源了什么呢?
“開源周”活動中發布的第5天,DeepSeek主要Open他們開源的兩個項目:3FS(高性能分布式文件系統)和 Smallpond(基于3FS的數據處理框架)。
為了便于大家理解,這里為大家梳理一下。
首先,3FS 是什么?簡單來說,就是一個專為現代硬件設計的 并行分布式文件系統,目標是最大化利用SSD硬盤和高速網絡(RDMA,繞過CPU直接傳輸數據)的性能,解決海量數據(如AI訓練、推理)的存儲和訪問速度問題。
那,為什么需要3FS?因為在AI訓練、大數據分析等場景需要處理TB/PB級數據,傳統文件系統可能成為性能瓶頸。3FS厲害之處就在于,通過并行技術和硬件優化(如SSD+RDMA),實現超高吞吐量和低延遲。
DS還給出了3FS 的三個性能亮點——
- 速度驚人
- 180臺機器集群:每秒讀取6.6 TiB(約等于同時傳輸10部4K電影)。
- 25臺機器:每分鐘排序3.66 TiB數據(GraySort基準測試,體現大數據排序能力)。
- 單客戶端節點:每秒40+ GiB的鍵值緩存查詢(適合AI推理中的快速數據檢索)。
- 架構優勢
- 解耦架構 (Disaggregated):計算和存儲資源分離,可按需擴展。
- 強一致性:多節點讀寫時,數據始終保持一致(避免臟讀/臟寫)。
- 應用場景
- AI數據預處理、模型訓練時的數據集加載
- 模型訓練中快速保存/恢復檢查點(防止中斷丟失進度)
- 向量搜索(如推薦系統、語義匹配)
- 推理時的鍵值緩存(加速實時查詢)
再來看Smallpond。它是DeepSeek基于3FS開發的一種數據處理框架,可理解為在3FS上高效管理數據的“工具箱”。
這種工具就非常容易上手了,值得各位大模型“煉丹”士擁有,因為它能夠簡化數據清洗、轉換、加載(ETL)等流程,適合大規模數據處理任務。
Github鏈接奉上——
- 3FS代碼倉庫:https://github.com/deepseek-ai/3FS
- Smallpond代碼倉庫:https://github.com/deepseek-ai/smallpond
具體都用在哪兒?
- AI/大數據團隊:用3FS可加速訓練和推理,減少數據讀寫等待時間。
- 需要高吞吐存儲的場景:如科學計算、實時分析、推薦系統等。
整體上看,DeepSeek AI 通過開源3FS和Smallpond,提供了針對AI和大數據場景的高性能存儲與數據處理方案,解決海量數據下的速度瓶頸問題。
大佬點評:AI Infra的又一福音!
業內對于今天DeepSeek開源的神器評價很高。知名大模型+AI芯片專家陳巍第一時間表達了驚嘆,稱“3F和smallpond是從1到10的優化典范,從底層重構AI Infra。”
陳巍認為,3F和smallpond絕對是基層煉丹師的福音?!昂喕植际綉贸绦虻拈_發,提供輕量級的數據庫整合系統,減少超大模型訓練中的維護和斷點保存,將大模型IT拯救于水火。預計該框架會迅速整合到現有training framwork中,加速工業界和學術界牛馬的發paper tps。”
硅基流動創始人袁進輝也稱今天的發布是:“DeepSeek可以用好硬盤緩存的秘密”。
DeepSeek:中國大模型的生態崛起的希望
去年大家還在糾結國產的萬卡系統很難建設,其中有各種問題。去年中國工程院院士鄭緯民就曾對此提出了擔憂:“現在用國產,我們的生態不太好,我們想辦法要做好十個軟件:并行系統、編程框架、通信庫、AI編譯器、算子庫、編程語言、調度器、容錯系統、內存分配系統、存儲系統?!?/span>
鄭院士還舉了自研國產并行系統和通信庫、內存分配系統、存儲系統的必要性。
比如,并行系統,現在不是1塊卡,而是1000塊卡、1萬塊卡,1塊卡訓練一百天,我們買100塊卡,一天就訓練完了。但中間要交換數據,交換一次是人家的90倍了,如果做得不好的話,100塊卡我們希望有100倍效能,只能做到3、4倍的效率。我們希望有70倍、80倍、90倍這就叫并行系統,想辦法接近100倍。做得不好,20倍。
再比如通信庫,1000塊卡、1萬塊卡要通信,怎么寫好?算子庫,寫一個矩陣軟件,最好不要寫,調用矩陣成本軟件,碰到什么就調用什么,這個庫要寫得多,寫得好。要有編譯器,國內會做編譯系統的特別少,龍舟系統,一個小時就出錯了,怎么才能繼續做下去?
鄭院士還提出,“數據實地化,內容主題化,算力國產化是目前的實際要求。”
但時鐘撥回到去年夏天,國產的大家還是不大愿意用,因為生態不好。
那DeepSeek這波的誠意十足的開源,可以說讓大家看到了國產學術界、產業界生態崛起的希望,這家了不起的公司一股腦把國產自研的大模型配套的技術全都搞出來了,并行、編譯、通信、內存、存儲、算子……
可以預見的是,DeepSeek正在標志著國產算力和國產模型正在成為新興的大模型勢力,中國也將迸發出性能強大、成本低廉、普惠全面的大模型應用。
參考鏈接:https://www.zhihu.com/question/13614300508/answer/112464472761