DeepSeek開源DeepEP,公開大模型訓練效率暴漲秘訣!
DeepSeek開啟了本周連續5天技術分享的第2天,開源了專為混合專家模型(MoE)訓練和推理設計的開源EP通信庫——DeepEP。
值得一提的是,DeepSeek昨天開源的FlashMLA已經超過7000顆星,成為github霸榜項目。今天這個已經破1000顆星啦。
開源地址:https://github.com/deepseek-ai/DeepEP
通常在MoE模型中,不同的GPU節點往往需要分工合作處理數據,而All-to-All通信是一種常見的模式,用來實現GPU之間數據的互相交換。
DeepEP通過高效且優化的All-to-All通信機制,支持節點內部和節點之間的通信,分別利用NVLink和RDMA實現。
例如,假設你有4個GPU,每個GPU專注于處理部分“專家模塊”,通過All-to-All通信,GPU1需要將部分數據發給GPU2,同時也從GPU3接收數據。DeepEP優化了這種通信方式,讓數據交換更快更高效。
同時,DeepEP還支持高吞吐量和低延遲內核。高吞吐量內核適用于訓練中的數據批量處理階段,比如預填充大批量數據時,能夠顯著提升訓練速度。而低延遲內核則針對推理解碼階段,低延遲的計算能夠讓生成結果更快。
例如,推理時,如果GPT模型正在完成一句話生成,低延遲內核會減少每個單詞生成的等待時間。
DeepEP原生支持FP8分發。FP8是一種更低精度的計算格式,相比于傳統的FP16或FP32,更節省顯存和計算資源,同時還能保持一定的精度。例如,在使用超大MoE模型生成文本時,使用FP8可以顯著減少計算成本,DeepEP天生支持這種低精度操作。
此外,DeepEP還實現了計算與通信的重疊。在深度學習中,通信(傳輸數據)和計算往往是分階段進行的,而DeepEP可以讓這兩者同時進行,進一步提升整體效率。例如,在訓練過程中,一個GPU可以在等待通信完成的同時,繼續處理其他計算任務,從而避免浪費時間。
網友表示,DeepSeek 對混合專家模型的優化程度令人矚目,這類模型因其規模和復雜性而極難處理。DeepEP利用 NVLink 和 RDMA 等前沿硬件,如此精準地應對挑戰并支持 FP8 數據格式,實在是太厲害了。
更多 CUDA 內核!又是出色的成果!
DeepEP來了,它將給 AI 模型訓練帶來革命性變化!
本文轉自 AIGC開放社區 ,作者:AIGC開放社區
